-
[ 목차 ]
Dataplex?
데이터가 조직의 핵심 자산으로 자리 잡으면서, 단순히 저장·조회하는 것을 넘어 데이터의 무결성, 거버넌스, 품질 관리가 필수 요건이 되었습니다. 특히 글로벌 규모에서 분산 데이터 환경을 운영하는 기업은 다음 사항이 필요합니다.
- 신뢰할 수 있는 데이터 품질
- 명확한 데이터 계보(Lineage) 추적
- 표준화된 메타데이터 관리
- 거버넌스 정책의 자동화 및 운영적용
구글 클라우드의 Dataplex Universal Catalog는 이러한 요구를 충족하는 지능형 데이터 거버넌스 플랫폼입니다. Ericsson은 이 기능을 도입해 거버넌스 체계를 운영하고 있으며, 본 가이드는 그 경험을 기반으로 실제 구성/운영 방법을 설명합니다.

Dataplex 개요
Dataplex Universal Catalog는 단일 중앙 카탈로그로 조직 전반의 메타데이터 및 데이터 자산을 관리할 수 있는 서비스입니다.
핵심 기능은 다음과 같습니다:
- 자동 데이터 검색 및 인벤토리 구성: GCS, BigQuery, Pub/Sub 등 다양한 저장소에 대한 메타데이터 자동 수집.
- 데이터 계보(Lineage) 추적: 데이터 흐름을 끝에서 끝까지 시각화 및 분석.
- 데이터 품질 프로파일링 및 검사: 자동 통계 정보 생성, 품질 규칙 기반 Alert 생성.
- 비즈니스 메타데이터 관리: 비즈니스 용어집, 태그 등을 기반으로 표준화된 메타데이터 운영.
Dataplex는 자체 UI 및 API, SDK를 통해 데이터 파이프라인과 통합되며, IAM을 기반으로 권한 수준 제어가 가능합니다.
1. Dataplex 프로젝트 및 메타데이터 카탈로그 설정
1.1 Dataplex 활성화
- Project 생성/선택
- Google Cloud 콘솔에서 운영할 프로젝트를 선택합니다.
- Dataplex API 활성화
- Dataplex API, BigQuery API, Data Catalog API를 모두 활성화합니다.
- 서비스 계정 설정
- Dataplex가 리소스에 접근할 수 있도록 권한(예: Dataplex Admin, BigQuery Data Viewer)을 할당합니다.
2. 리소스 스캔 및 메타데이터 수집
2.1 자산 레이크/도메인 등록
Dataplex에서 데이터를 거버넌스 하려면 먼저 Asset 단위로 리소스를 등록해야 합니다.
- 레이크(Lake) 생성
- 전체 데이터 환경을 대표하는 최상위 단위입니다.
- Asset 등록
- GCS 버킷, BigQuery Dataset 등 데이터가 저장된 위치를 등록합니다.
UI에서 간단히 등록할 수 있으며, 등록 후 Dataplex는 자동 메타데이터 추출을 수행합니다.
3. 데이터 품질 및 계보 설정
3.1 데이터 계보 추적 (Lineage)
Dataplex는 수집된 메타데이터를 기반으로 다음을 자동으로 추적합니다:
- 소스 테이블이 어디서 기원했는지
- 어떤 변환이 적용됐는지
- 어떤 파이프라인이 데이터 소비에 영향을 주는지
설정 방법:
- Dataplex UI → Catalog → Lineage 탭 접근
- 원하는 엔티티(예: BigQuery Table) 선택
- 계보 시각화 확인
이 기능은 문제 발생 시 원인 분석과 영향 범위 파악에 유용합니다.
4. 메타데이터 보강 (Business Glossary)
4.1 비즈니스 용어집 용어 사전 구축
Ericsson 사례에서 가장 먼저 한 것은 공통 비즈니스 용어 사전 구축입니다. 이를 통해 데이터 소비자들이 동일한 의미로 데이터를 이해하도록 했습니다.
설정 방법:
- Dataplex → Business Glossary
- 핵심 용어 정의 및 설명 입력
- 이 용어를 데이터 자산(컬럼/테이블)에 연결
이 단계는 데이터 동기화와 거버넌스 정책 일관성을 확보하는 데 매우 중요한 부분입니다.
5. 데이터 품질 규칙 및 자동 모니터링
Dataplex를 통해 데이터 품질 측정 및 Alert 체계를 구축할 수 있습니다.
5.1 자동 품질 프로파일링
- 데이터 자산 선택 (BigQuery 등)
- Profiling / Quality 탭에서 품질 규칙 설정
- 예: NULL 비율, 값 범위 등
설정된 규칙을 기반으로 Dataplex는 프로파일링 결과를 주기적으로 생성하며 이상치 발생 시 자동으로 경고를 생성합니다.
5.2 연동 Alert/Incident 처리
Dataplex 자체 Alert 뿐 아니라, Google Cloud Monitoring / Incident Management 도구와 연동해 품질 이슈를 운영 체계로 자동 전파할 수 있습니다 (Ericsson도 이 방식을 채택함).
6. 운영 거버넌스 정책 적용
실제 운영에서는 다음과 같은 정책을 구성합니다:
- 보존 정책(Retention): 보관·삭제 정책을 메타데이터에 태그로 적용
- 민감도 레이블링: PII/PCI 등 민감 데이터에 대한 분류 및 접근 제어
- 액세스 로그/추적: 관련 감사 로그 설정 및 모니터링
Dataplex는 IAM과 연계하여 운영자가 구조화된 거버넌스를 유지할 수 있도록 지원합니다.
7. 정리 및 권장 설정
Dataplex 운영 시 권장:
- 메타데이터 표준 정의 → 비즈니스 용어집으로 관리
- 자동 계보 및 품질 프로파일링 활성화
- 운영 정책 (보존/민감도/Alert) 명문화 및 자동화
- 파이프라인에 Dataplex 검증 단계를 포함
Ericsson 사례는 이 구조를 통해 데이터 전략을 실질적 운영으로 전환했고, 데이터 품질 및 신뢰도를 크게 향상했습니다.