ERP 데이터 마이그레이션 체크리스트와 비용 산정 가이드: 레거시 정제 비용 500만~2,000만 원의 기술적 실체

선정 이유: 레거시 시스템의 데이터 뇌관

ERP 교체 프로젝트의 70%가 데이터 마이그레이션 단계에서 예상보다 40% 이상의 비용 초과를 겪는다. 단순 복사가 아닌 구조적 재설계가 필요한 레거시 데이터의 특성상, 500만 원에서 2,000만 원 사이로 추정되는 정제 비용은 종종 5,000만 원을 넘어서기도 한다. 데이터는 쌓인다. 그리고 썩는다. 10년간 방치된 거래처 마스터 데이터가 클라우드 ERP의 AI 모듈을 오염시키는 과정은 조용하며 치명적이다. 본 가이드는 기술 표준과 프로세스 관점에서 데이터 마이그레이션의 객관적 절차와 비용 산정의 실체를 제시한다.

ERP 데이터 마이그레이션 체크리스트와 비용 산정 가이드: 레거시 정제 비용 500만~2,000만 원의 기술적 실체 1

데이터 마이그레이션 실패의 본질

마이그레이션은 단순 이동이 아니다. 레거시 시스템의 비정규화된 테이블 구조를 현대적인 ERP의 정규화 스키마로 변환하는 과정에서 발생하는 의미론적 손실(semantic loss)이 진짜 문제다. 예를 들어, 기존 시스템에서 ‘거래처명’ 필드에 사업자번호와 대표자명이 함께 입력되어 있다면, 이는 단순 분할 작업을 넘어 데이터 품질 규칙의 재정립을 요구한다.

실패하는 프로젝트들이 공통으로 놓치는 지점은 데이터 클리닝과 비즈니스 룰 검증의 순서다. 기술팀이 먼저 ETL(Extract, Transform, Load) 파이프라인을 구축하고 나중에 데이터 품질을 검토하는 방식은 재작업의 늪을 만든다. 반드시 역순으로 접근해야 한다. 품질 기준을 먼저 세우고, 그 기준에 맞춰 추출 로직을 설계하는 것이 유일한 생존 전략이다.

체크리스트 4단계 프레임워크

ERP 데이터 마이그레이션은 Discovery(발굴), Cleansing(정제), Mapping(매핑), Validation(검증)의 4단계로 구성된다. 각 단계는 산출물 기반으로 관리되어야 하며, 단계 간 회귀(regression)를 원칙적으로 차단해야 한다.

단계 핵심 작업 산출물 주요 리스크
Discovery 소스 시스템 메타데이터 분석, 데이터 프로파일링 데이터 품질 리포트, 필드 사전 미식별된 히스토리 데이터 존재
Cleansing 중복 제거, 표준화, 무결성 복구 클린 데이터 세트, 클렌징 로그 비즈니스 룰 누락으로 인한 오정제
Mapping 필드 매핑, 코드 변환, 참조 무결성 설정 매핑 명세서, 변환 룰셋 코드 값 의미 왜곡(예: ‘1’=남성→’01’=남성)
Validation 샘플링 검증, 전수 조사, 밸런싱 테스트 검증 리포트, 오류 목록 통계적 오류 허용 기준 미 설정

Discovery 단계에서 특히 주목해야 할 것은 Z-table(사용자 정의 테이블)과 Archive 데이터다. SAP R/3 환경에서 Z-table은 표준 테이블만큼이나 방대하며, 이들의 논리적 관계를 파악하지 않고 마이그레이션을 시작하면 참조 무결성 오류가 발생한다.

Cleansing 비용이 500만 원에서 2,000만 원으로 추정되는 이유는 여기에 있다. 단순히 NULL 값을 채우는 작업이 아니라, 15년간 누적된 거래처 데이터의 표준화 작업은 사람의 판단이 개입해야 하는 비정형 영역이 존재하기 때문이다. 예컨대, ‘삼성전자’와 ‘삼성전자(주)’, ‘Samsung Electronics’가 동일 법인인지 판별하는 것은 알고리즘만으로 해결 불가능하다.

ERP 데이터 마이그레이션 체크리스트와 비용 산정 가이드: 레거시 정제 비용 500만~2,000만 원의 기술적 실체 2

비용 산정의 숨은 변수들

견적서에 잡히지 않는 비용 세 가지를 명확히 인식해야 한다. 첫째, 데이터 역마이그레이션(rollback) 테스트 비용이다. 마이그레이션 실패 시 대응 방안을 검증하는 것은 필수이나, 많은 프로젝트가 이를 시뮬레이션만으로 끝낸다. 실제 롤백 스크립트 작성과 테스트는 전체 작업의 15~20%를 차지한다.

둘째, 병행 운영 기간의 데이터 동기화 비용이다. 레거시와 신규 시스템을 3개월간 동시 운영할 경우, 양방향 동기화 로직 개발은 별도 프로젝트와 다름없다. 특히 재고 데이터의 경우 실시간 동기화가 불가능해 수작업 조정 비용이 발생한다.

셋째, AI 학습 데이터 가공 비용이다. 단순 마이그레이션을 넘어 Machine Learning용 데이터셋을 구축하려면, Feature Engineering과 Labeling 작업이 추가된다. 정형 데이터의 경우에도 20~30%의 추가 가공 비용이 발생하며, 비정형 데이터(문서, 이미지)가 포함될 경우 비용은 지수적으로 증가한다.

AI 학습 데이터 마이닝 표준 절차

ERP 데이터를 AI 학습에 활용하려면 단순 이동을 넘어 MLOps 파이프라인에 맞는 재가공이 필요하다. 절차는 다음과 같다.

1. Feature Selection: ERP의 500여 개 필드 중 AI 모델 입력 변수로 적합한 필드를 선별한다. 다중공선성(multicollinearity)을 고려하여 매출액과 영업이익처럼 상관관계가 높은 변수는 제외하거나 PCA(주성분분석)를 적용한다.

2. Label Definition: 예측 대상이 되는 타겟 변수를 정의한다. 고객 이탈 예측 모델이라면, ‘이탈’의 정의를 명확히 해야 한다. 12개월 거래 중단? 아니면 영구 삭제? 정의에 따라 데이터 추출 로직이 완전히 달라진다.

3. Temporal Split: 시계열 데이터의 경우 시간순 분할이 필수다. 랜덤 샘플링은 미래 정보가 과거로 유입되는 data leakage를 발생시킨다. 반드시 Train(과거 2년), Validation(과거 6개월), Test(최근 6개월)로 분할한다.

4. Anonymization: 개인정보가 포함된 ERP 데이터는 학습 전 비식별화 처리가 필요하다. K-익명성(K-anonymity)이나 차등 프라이버시(differential privacy) 기법을 적용하며, 이 과정에서 데이터 유틸리티 손실을 최소화하는 파라미터 튜닝이 요구된다.

ERP 데이터 마이그레이션 체크리스트와 비용 산정 가이드: 레거시 정제 비용 500만~2,000만 원의 기술적 실체 3

데이터 마이닝의 가장 큰 위험은 과적합(overfitting)이 아니라, 비즈니스 도메인 지식의 부재다. ERP 데이터의 ‘마감월’ 필드가 회계 마감일과 실제 거래일의 차이를 반영하지 않는다면, 어떤 정교한 알고리즘도 의미 없는 패턴을 학습할 뿐이다.

자주 묻는 질문

Q. 데이터 정제 비용 500만~2,000만 원은 어떤 기준으로 책정되는가?

A. 산정 기준은 데이터 건수가 아닌 데이터 품질 지표에 따른다. 중복도 30% 이하, 완결성 95% 이상인 경우 하한선(500만 원)에 접근하며, 비표준 코드 사용률 40% 이상이나 비정형 데이터 비중이 높을 경우 상한선(2,000만 원)을 초과하기도 한다. 정확한 견적을 위해서는 소스 시스템의 데이터 프로파일링을 선행해야 한다.

Q. AI 학습용 데이터 마이닝은 일반 마이그레이션과 무엇이 다른가?

A. 목적이 다르다. 일반 마이그레이션은 운영 연속성을 목표로 하며, 데이터의 비즈니스 의미를 보존하는 데 초점을 맞춘다. 반면 AI 학습용 마이닝은 예측력 극대화를 목표로 하며, Feature Engineering을 통해 원본에 없는 파생 변수를 생성하고, 불균형 데이터 처리(언더샘플링/오버샘플링) 등 통계적 가공이 추가된다.

Q. 마이그레이션 중단 후 롤백은 언제 결정해야 하는가?

A. Validation 단계가 종료되기 전이 마지노선이다. 데이터 검증에서 오류율 5%를 초과하거나, 핵심 재무 데이터의 밸런싱(차변/대변 합계 일치)이 맞지 않을 경우 즉시 롤백을 검토해야 한다. Go-Live 이후의 롤백은 실질적으로 불가능하며, 이 경우 데이터 역추적을 통한 장애 복구 비용은 초기 예산의 3~5배에 달한다.

함께 보면 좋은 글