본문 바로가기
카테고리 없음

GCP Dataplex 기반 데이터 거버넌스 구축 가이드

by 나의공간만들기 2026. 1. 2.

    [ 목차 ]

Dataplex?

데이터가 조직의 핵심 자산으로 자리 잡으면서, 단순히 저장·조회하는 것을 넘어 데이터의 무결성, 거버넌스, 품질 관리가 필수 요건이 되었습니다. 특히 글로벌 규모에서 분산 데이터 환경을 운영하는 기업은 다음 사항이 필요합니다.

  • 신뢰할 수 있는 데이터 품질
  • 명확한 데이터 계보(Lineage) 추적
  • 표준화된 메타데이터 관리
  • 거버넌스 정책의 자동화 및 운영적용

구글 클라우드의 Dataplex Universal Catalog는 이러한 요구를 충족하는 지능형 데이터 거버넌스 플랫폼입니다. Ericsson은 이 기능을 도입해 거버넌스 체계를 운영하고 있으며, 본 가이드는 그 경험을 기반으로 실제 구성/운영 방법을 설명합니다.

GCP Dataplex 기반 데이터 거버넌스 구축 가이드
GCP Dataplex 기반 데이터 거버넌스 구축 가이드

Dataplex 개요

Dataplex Universal Catalog는 단일 중앙 카탈로그로 조직 전반의 메타데이터 및 데이터 자산을 관리할 수 있는 서비스입니다.

핵심 기능은 다음과 같습니다:

  • 자동 데이터 검색 및 인벤토리 구성: GCS, BigQuery, Pub/Sub 등 다양한 저장소에 대한 메타데이터 자동 수집.
  • 데이터 계보(Lineage) 추적: 데이터 흐름을 끝에서 끝까지 시각화 및 분석.
  • 데이터 품질 프로파일링 및 검사: 자동 통계 정보 생성, 품질 규칙 기반 Alert 생성.
  • 비즈니스 메타데이터 관리: 비즈니스 용어집, 태그 등을 기반으로 표준화된 메타데이터 운영.

Dataplex는 자체 UI 및 API, SDK를 통해 데이터 파이프라인과 통합되며, IAM을 기반으로 권한 수준 제어가 가능합니다.

1. Dataplex 프로젝트 및 메타데이터 카탈로그 설정

1.1 Dataplex 활성화

  1. Project 생성/선택
    • Google Cloud 콘솔에서 운영할 프로젝트를 선택합니다.
  2. Dataplex API 활성화
    • Dataplex API, BigQuery API, Data Catalog API를 모두 활성화합니다.
  3. 서비스 계정 설정
    • Dataplex가 리소스에 접근할 수 있도록 권한(예: Dataplex Admin, BigQuery Data Viewer)을 할당합니다.

2. 리소스 스캔 및 메타데이터 수집

2.1 자산 레이크/도메인 등록

Dataplex에서 데이터를 거버넌스 하려면 먼저 Asset 단위로 리소스를 등록해야 합니다.

  1. 레이크(Lake) 생성
    • 전체 데이터 환경을 대표하는 최상위 단위입니다.
  2. Asset 등록
    • GCS 버킷, BigQuery Dataset 등 데이터가 저장된 위치를 등록합니다.

UI에서 간단히 등록할 수 있으며, 등록 후 Dataplex는 자동 메타데이터 추출을 수행합니다.

3. 데이터 품질 및 계보 설정

3.1 데이터 계보 추적 (Lineage)

Dataplex는 수집된 메타데이터를 기반으로 다음을 자동으로 추적합니다:

  • 소스 테이블이 어디서 기원했는지
  • 어떤 변환이 적용됐는지
  • 어떤 파이프라인이 데이터 소비에 영향을 주는지

설정 방법:

  1. Dataplex UI → Catalog → Lineage 탭 접근
  2. 원하는 엔티티(예: BigQuery Table) 선택
  3. 계보 시각화 확인

이 기능은 문제 발생 시 원인 분석영향 범위 파악에 유용합니다.

4. 메타데이터 보강 (Business Glossary)

4.1 비즈니스 용어집 용어 사전 구축

Ericsson 사례에서 가장 먼저 한 것은 공통 비즈니스 용어 사전 구축입니다. 이를 통해 데이터 소비자들이 동일한 의미로 데이터를 이해하도록 했습니다.

설정 방법:

  1. Dataplex → Business Glossary
  2. 핵심 용어 정의 및 설명 입력
  3. 이 용어를 데이터 자산(컬럼/테이블)에 연결

이 단계는 데이터 동기화와 거버넌스 정책 일관성을 확보하는 데 매우 중요한 부분입니다.

5. 데이터 품질 규칙 및 자동 모니터링

Dataplex를 통해 데이터 품질 측정 및 Alert 체계를 구축할 수 있습니다.

5.1 자동 품질 프로파일링

  1. 데이터 자산 선택 (BigQuery 등)
  2. Profiling / Quality 탭에서 품질 규칙 설정
    • 예: NULL 비율, 값 범위 등

설정된 규칙을 기반으로 Dataplex는 프로파일링 결과를 주기적으로 생성하며 이상치 발생 시 자동으로 경고를 생성합니다.

5.2 연동 Alert/Incident 처리

Dataplex 자체 Alert 뿐 아니라, Google Cloud Monitoring / Incident Management 도구와 연동해 품질 이슈를 운영 체계로 자동 전파할 수 있습니다 (Ericsson도 이 방식을 채택함).

6. 운영 거버넌스 정책 적용

실제 운영에서는 다음과 같은 정책을 구성합니다:

  • 보존 정책(Retention): 보관·삭제 정책을 메타데이터에 태그로 적용
  • 민감도 레이블링: PII/PCI 등 민감 데이터에 대한 분류 및 접근 제어
  • 액세스 로그/추적: 관련 감사 로그 설정 및 모니터링

Dataplex는 IAM과 연계하여 운영자가 구조화된 거버넌스를 유지할 수 있도록 지원합니다.

7. 정리 및 권장 설정

Dataplex 운영 시 권장:

  • 메타데이터 표준 정의 → 비즈니스 용어집으로 관리
  • 자동 계보 및 품질 프로파일링 활성화
  • 운영 정책 (보존/민감도/Alert) 명문화 및 자동화
  • 파이프라인에 Dataplex 검증 단계를 포함

Ericsson 사례는 이 구조를 통해 데이터 전략을 실질적 운영으로 전환했고, 데이터 품질 및 신뢰도를 크게 향상했습니다.