Diki 검색중...
#개념
ETL(Extract, Transform, Load)은 다양한 소스 시스템으로부터 데이터를 추출(Extract)하고, 비즈니스 요구사항에 맞게 데이터를 변환(Transform)한 후, 최종 목적지 시스템(주로 데이터 웨어하우스)에 적재(Load)하는 일련의 과정을 의미한다. 이는 데이터 분석, 보고, 비즈니스 인텔리전스(BI)를 위한 기반 데이터를 구축하는 핵심적인 데이터 파이프라인(Data Pipeline) 구성 요소다. ETL 구성 요소는 다음과 같다.
- 추출(Extract): 운영 데이터베이스(OLTP), CRM, ERP 시스템, 로그 파일, 스프레드시트, 외부 API 등 다양한 데이터 원천으로부터 필요한 데이터를 읽어오는 단계다. 데이터의 형식, 구조, 위치가 매우 다양할 수 있다.
- 변환(Transform): 추출된 원시 데이터를 분석 및 활용 목적에 맞게 가공하는 가장 중요하고 복잡한 단계다. 데이터 클렌징(결측치 처리, 오류 수정), 데이터 표준화(단위 통일, 형식 일치), 데이터 통합(여러 소스의 데이터 결합), 데이터 집계(요약 정보 생성), 새로운 파생 변수 생성 등 다양한 작업이 포함된다. 비즈니스 규칙을 적용하여 데이터의 품질과 일관성을 보장한다.
- 적재(Load): 변환된 데이터를 최종 목적지인 데이터 웨어하우스, 데이터 마트(Data Mart), 또는 데이터 레이크(Data Lake) 등의 분석 시스템에 저장하는 단계다. 초기 전체 데이터를 적재하는 풀 로드(Full Load) 방식과 이후 변경된 데이터만 반영하는 증분 로드(Incremental Load) 방식이 주로 사용된다.
#관련 용어
데이터 웨어하우스
분석 및 보고를 위해 여러 소스의 데이터를 통합하여 저장하는 중앙 저장소
정형, 반정형, 비정형 데이터를 원시 형태 그대로 저장하는 대규모 저장소
데이터를 한 시스템에서 다른 시스템으로 이동하고 처리하는 일련의 자동화된 단계
데이터베이스의 구조와 제약 조건에 관한 전반적인 명세
데이터를 추출(Extract), 적재(Load), 변환(Transform)하는 데이터 통합 프로세스
#직무 연관도
DA | Data Analyst보통
ETL을 통해 정제되고 통합된 데이터를 활용하여 분석 및 보고서를 작성한다.
DS | Data Scientist보통
모델 학습을 위한 데이터를 준비하고 이해하기 위해 ETL 프로세스에 대한 이해가 필요하다.
DE | Data Engineer밀접
안정적이고 효율적인 ETL 파이프라인을 설계, 구축, 운영 및 유지보수하는 핵심 역할을 수행한다.
#사용 사례
다양한 운영 시스템에 흩어져 있는 데이터를 통합하여 일관성 있는 분석 환경을 구축하고, 비즈니스 인텔리전스(BI) 및 보고 시스템을 지원하며, 데이터 마이그레이션, 데이터 품질 관리 등 다양한 데이터 관리 작업에 활용된다.
한 소매 기업은 전국 매장의 POS 데이터, 온라인 쇼핑몰 거래 내역, 물류 시스템 데이터를 ETL 파이프라인을 통해 매일 밤 데이터 웨어하우스로 통합한다. 이렇게 통합된 데이터를 분석하여 재고 관리 최적화, 고객 구매 패턴 분석 기반의 마케팅 캠페인 기획, 지역별/상품별 매출 동향 파악 등에 활용한다.
#참고 자료
#추천 포스트
© 2024 diki All rights reserved.