레거시 데이터 정제(ETL) 절차 및 데이터 부채 해결 실무 가이드

선정 이유: 레거시 데이터 정제(ETL) 절차 및 데이터 부채 해결 가이드 분석의 필요성

AI 프로젝트의 85%가 실패하거나 예산을 초과한다는 통계는 이미 업계의 상식이 되었다. 그중 상당수가 레거시 시스템에서 유래한 오염된 데이터, 일관성 없는 스키마, 문서화되지 않은 비즈니스 로직 때문에 발생한다. 단순히 ‘데이터가 많다’는 것이 아니라, 쌓인 ‘데이터 부채(Data Debt)’가 프로젝트를 짓누르는 구조적 문제다. 이 글은 감정적인 호소나 성공 신화를 배제하고, 오직 객관적인 절차와 비용 산정 프레임워크, 그리고 표준화된 품질 관리 체계를 제시한다.

레거시 데이터 정제(ETL) 절차 및 데이터 부채 해결 실무 가이드 1

데이터 부채의 실체와 리스크

레거시 시스템이 남긴 데이터 부채는 단순히 ‘오래된 데이터’를 넘어선 개념이다. 10년 이상 운영된 ERP나 CRM 시스템에서 축적된 중복 레코드, 널(Null) 값 처리 방식의 불일치, 그리고 퇴직자들이 남긴 의문의 컬럼들은 마이그레이션 과정에서 폭발적인 비용 증가를 유발한다.

특히 심각한 것은 메타데이터의 부재다. 데이터가 어떤 규칙으로 생성되었는지, 어떤 변환을 거쳤는지를 추적할 수 없다면, ETL 과정은 단순한 이동이 아닌 위험한 도박이 된다. 금융권의 경우 이러한 데이터 부채가 직접적인 규정 위반(금융실명법, 개인정보보호법 위반 가능성)으로 연결될 수 있어 사전 절차 마련이 필수적이다.

레거시 데이터 정제를 위한 ETL 표준 절차

ETL(Extract, Transform, Load)은 단순한 데이터 이동 도구가 아니라, 데이터 부채를 상환하는 구조적 프로세스다. 레거시 환경에서는 각 단계마다 표준화된 검증 절차를 도입해야 한다.

추출(Extract) 단계의 문서화 의무

원본 시스템에서 데이터를 추출할 때는 단순히 쿼리를 실행하는 것으로 끝나지 않는다. 소스 시스템의 스키마 버전, 추출 시점의 트랜잭션 격리 수준, 그리고 증분 추출(Incremental Extraction) 여부를 반드시 기록해야 한다. 전체 추출(Full Extraction)을 선택할 경우, 레거시 시스템의 부하로 인한 장애 가능성을 사전에 검토하는 절차가 필요하다.

변환(Transform)의 데이터 품질 게이트

변환 단계에서는 데이터 클렌징, 표준화, 그리고 중복 제거가 이루어진다. 이때 비즈니스 규칙을 코드로 구현하기 전에, 데이터 품질 게이트(Quality Gate)를 설정하는 것이 중요하다. 예를 들어 고객 주소 데이터의 경우, 우편번호와 지번 주소의 매칭율이 95% 미만일 경우 자동으로 롤백되는 절차를 구축해야 한다.

로드(Load)의 원자성 보장

데이터 웨어하우스나 데이터 레이크로 최종 로드할 때는 원자성(Atomicity)을 보장해야 한다. 부분 로드로 인한 데이터 불일치는 레거시 시스템의 부채를 새 시스템으로 그대로 이전하는 결과를 낳는다. 배치 처리 시에는 반드시 체크포인트(Checkpoint)를 설정하여, 특정 구간에서 오류 발생 시 해당 구간부터 재시작할 수 있는 절차를 마련해야 한다.

데이터 정제 비용 산정 모델

데이터 정제 비용은 단순히 인건비나 툴 라이선스비로 산정해서는 안 된다. 데이터의 복잡도, 오염도, 그리고 소스 시스템의 접근성(Accessbility)을 정량화한 모델이 필요하다.

구분 데이터 복잡도 예상 소요 공수 비용 산정 기준
단순 마이그레이션 스키마 일치, Null 값 5% 미만 1-2일/테이블 추출+검증 비용
표준 정제 중복 데이터 10-20%, 포맷 불일치 3-5일/테이블 변환 로직 개발비 포함
복합 재구성 비정형 데이터 포함, 레거시 코드 분석 필요 1-2주/테이블 역공학(Reverse Engineering) 비용 추가
대규모 통합 다중 소스 통합, 실시간 처리 필요 2주 이상/테이블 인프라 구축비+지속적 관리비

위 표는 모바일 환경에서도 가독성을 유지하도록 간결하게 구성했다. 특히 레거시 시스템의 경우 ‘역공학’ 비용이 쉽게 간과되지만, 문서화되지 않은 필드의 비즈니스 로직을 분석하는 데 프로젝트 전체 공수의 40%를 차지하기도 한다.

데이터 품질 관리 및 거버넌스 체계

데이터 정제는 일회성 이벤트가 아니라 지속적인 거버넌스 과정이다. 특히 레거시 시스템과의 병행 운영(Parallel Run) 기간에는 데이터 불일치를 실시간으로 모니터링하는 체계가 필수적이다.

메타데이터 관리 도구를 도입하여 데이터 리니지(Data Lineage)를 추적하고, 데이터 카탈로그를 통해 정제된 데이터의 사용 권한과 변경 이력을 관리해야 한다. 또한 개인정보보호법이나 산업특화법(금융, 의료 등)에 따른 데이터 마스킹이나 암호화 절차를 ETL 파이프라인 내에 내장하는 것은 법적 의무사항이기도 하다.

정기적인 데이터 프로파일링(Data Profiling)을 통해 품질 저하를 사전에 감지하고, 이상 징후 발생 시 자동 알림이 가는 체계를 구축하는 것이 장기적인 데이터 부채 관리의 핵심이다.

레거시 데이터 정제(ETL) 절차 및 데이터 부채 해결 실무 가이드 3

자주 묻는 질문

Q. 레거시 데이터 정제 시 ETL과 ELT 중 어떤 방식을 선택해야 하나요?

A. 레거시 시스템의 특성에 따라 다르다. 데이터 부채가 심각하여 변환 로직이 복잡하고 대상 시스템의 스토리지 비용이 저렴하다면 ELT(Extract, Load, Transform)를 고려할 수 있다. 그러나 레거시 데이터의 품질이 매우 낮아서 정제 없이 적재 시 대상 시스템이 오염될 위험이 있다면, 반드시 ETL 방식으로 중간 단계에서 데이터를 정제한 후 로드해야 한다. 금융권이나 공공기관은 보안상의 이유로 ETL 방식을 선호하는 경우가 많다.

Q. 데이터 부채 해결 프로젝트의 예산은 어떻게 책정하나요?

A. 데이터 테이블당 평균 정제 공수를 산정한 후, 복잡도 계수를 곱하는 방식이 표준적이다. 단순 테이블은 1.0, 중복이 심한 테이블은 1.5, 비즈니스 로직 분석이 필요한 테이블은 2.0 이상의 계수를 적용한다. 또한 프로젝트 종료 후 1년간의 유지보스 비용을 초기 예산의 20%로 잡는 것이 일반적이다.

Q. AI 프로젝트 실패를 방지하기 위한 데이터 품질 기준은 무엇인가요?

A. 완벽한 데이터는 존재하지 않지만, ‘AI 학습에 적합한’ 최소한의 기준은 필요하다. 완결성(Completeness) 95% 이상, 유일성(Uniqueness) 90% 이상, 유효성(Validity) 98% 이상을 권장한다. 특히 레거시 데이터의 경우 시간에 따른 스키마 변화(Schema Drift)가 흔하므로, 메타데이터의 일관성 검증은 필수다.

함께 보면 좋은 글