List view
(0) Home/Intro
(0) Home/Intro
(1) Lead Validation
(1) Lead Validation
(2) Lead Nurturing
(2) Lead Nurturing
Lead Validation → Data Cleansing
Data Cleansing
데이터 클렌징
개요
정의
데이터 클렌징은 적재된 데이터를 활용 가능한 상태로 정제하는 과정을 의미한다. 이 과정은 중복 데이터 식별, 결측치 및 이상치 처리, 데이터 일관성 검사, 데이터 형식 표준화, 데이터 검증 및 품질 관리 등의 단계로 이루어진다.
이를 통해 데이터의 일관성과 정확성을 향상시켜 데이터 품질을 개선할 수 있으며, 정제된 데이터를 기반으로 정확한 의사결정과 신뢰성 있는 분석 결과를 도출할 수 있다. 또한, 불필요한 데이터 클렌징을 통해 데이터 저장 및 처리 비용을 절감할 수 있다.
목표
1. 데이터 품질 향상
잘못된 데이터와 오류를 수정하여 데이터의 신뢰성을 높여 데이터 품질을 향상한다.
2. 데이터 일관성 확보
중복 데이터를 제거하고 표준화된 형식을 적용하여 데이터의 일관성을 유지한다.
3. 정확한 분석 결과 도출
정제된 데이터를 활용하여 분석함으로써, 정확한 분석결과 도출 및 비즈니스 의사결정에 기여한다.
4. 비용 절감
불필요한 데이터 클렌징을 통해 저장 및 관리 비용을 줄임으로써 운영 비용을 절감한다.
표준화 원칙
1. 데이터 품질 확보 기준 수립
데이터의 정확성, 완전성, 신뢰성을 유지하기 위해 필요한 방법론을 정의하여 정확하고 신뢰성 있는 데이터를 확보할 수 있도록 한다.
2. 데이터 표준화 및 일관성 기준 수립
데이터 형식과 구조를 통일하고, 데이터 간의 논리적 관계를 유지하는 방법론을 정의하여 표준화되고 일관된 데이터를 안정적으로 관리할 수 있도록 한다.
3. 데이터 클렌징 방향성 수립
데이터 특성에 따라 데이터 클렌징 방향성을 설정하고, 그에 따라 효율적으로 데이터 검증 과정을 수행한다.
관련 KPI
1. 중복 데이터 비율
동일하거나 유사한 데이터를 탐지하여 데이터를 제거하거나 병합한 비율을 측정해 데이터 고유성을 평가 할 수 있다.
2. 데이터 완전성 비율
누락되거나 잘못 입력된 데이터를 탐지하여 대체값으로 처리하거나 보완한 비율을 측정하여 데이터 완전성을 평가 할 수 있다.
3. 이상치 처리율
데이터 특성에 따라 정의한 범위를 벗어난 이상치를 팀지하여 데이터를 보완한 비율을 측정하여 데이터 신뢰성을 평가 할 수 있다.
4. 데이터 일관성 비율
데이터 필드 간 데이터가 논리적으로 일치하는 정도를 측정하여 데이터 신뢰성을 평가 할 수 있다.
5. 클렌징 자동화 적용률
자동화된 데이터 클렌징 프로세스가 전체 데이터 클렌징 작업에 차지하는 비율을 측정하여 효율성을 평가 할 수 있다.
실행 방법론
데이터 품질 검증
표준화 원칙 1. 데이터 품질 확보 기준 수립
중복 데이터 식별
중복 데이터 식별은 데이터에서 동일하거나 유사한 데이터를 탐지하고 이를 제거하거나 병합하여 데이터의 정확성과 효율성을 높이는 과정을 의미한다. 중복 데이터 제거는 데이터 수집 자동화↗ 과정에서 중복 데이터를 식별하여 제거하며, 중복 데이터 병합은 각 레코드 간에 중요한 정보를 손실 없이 통합하여 완전한 데이터를 생성할 수 있다.
중복 데이터가 발생할 경우, 고객 유형에 따라 중복 여부를 식별하고 데이터를 병합한다. 예시로 고객 기본 정보(고객 ID, 성별, 전화번호 등) 또는 차량 번호(VIN) 등을 기준으로 중복 여부를 판단하고 데이터를 병합 할 수 있다.
결측치 처리
결측치 처리는 누락되거나 잘못 입력된 데이터를 식별해 연관된 데이터 필드를 참고하여 대체값으로 처리하는 과정을 의미한다. 이를 통해 데이터를 보완하여 분석 결과의 왜곡을 최소화할 수 있다. 단, 데이터 소스별 대체값 처리 로직은 분석 및 활용 목적에 따라 정의한다. 만약 사전에 정의한 대체값 유형이 적절하지 않은 케이스가 발견될 경우, 대체값 처리 로직을 변경하여 적용한다.
아래는 일부 결측치 처리 사례이며, 데이터 유형별 특성에 따라 적절한 처리 기준을 수립해 데이터를 보완해야 한다.
사례 유형 | 내용 | 처리 방법 예시 |
고객 기본 정보 누락 | 고객 정보 데이터에서 성별, 연락처 등의 정보가 누락된 경우 | 구매 정보 데이터 등 기존 고객 정보 데이터를 활용하여 누락된 정보를 대체 |
연령 정보 대체 | 고객 정보 데이터에서 연령 정보가 누락된 경우 | 생년월일 정보를 참조해서 연령을 계산해 대체 |
차량 세부 정보 보완 | 차량 정보 데이터에서 트림 등급, 외장 색상, 엔진 종류 등의 정보가 누락된 경우 | 생산 및 출고 관련 데이터를 참조해 누락된 정보를 대체 |
이상치 처리
이상치 처리는 데이터 특성에 따라 정상 범위를 정의하고 이 범위를 벗어난 값을 이상치로 간주하여 데이터를 보완하는 과정을 의미한다. 아래 예시와 같이 분석 및 활용 목적 또는 데이터 유형에 맞게 이상치 처리 방법을 정의야 하며, 이상치 제거가 아닌 데이터 보완이 필요한 경우가 있을 수 있어 분석 및 활용 목적을 고려하여 이상치 처리 방법을 선택해야 한다. 만약 사전 정의한 이상치 처리 방법을 적용하기 어려운 케이스가 발견될 경우, 이상치 처리 방법을 변경하여 적용한다.
아래 예시는 일반적으로 활용되는 방법론을 적용한 예시이며, 분석 및 활용 목적에 따른 데이터 유형별 이상치 처리 방법론 정의하여 데이터를 보완해야 한다.
1. 숫자형 데이터
정의 | 처리 방법 | 처리 방법 예시 |
차량 가격, 연비, 총 방문 회수 등 수치로 표현되는 데이터 | 데이터의 정상 범위 (예. 평균 표준편차, IQR 범위*)를 정의하여 이상치로 간주하여 데이터를 보완한다. | 차량 정보 데이터에서 주행 거리 정보가 비정상적으로 높은 값일 경우 → 이상치로 식별하여 연식, 모델, 차량 구매일 등을 고려하여 평균값으로 대체 |
*IQR 범위 (Interquartile Range, 사분위 범위) : 데이터 분포의 1사분위값(Q1, 하위 25%)과 3사분위값(Q3, 상위 25%) 간의 거리로, 일반적으로 Q1-1.5×IQR ~ Q3+1.5×IQR 범위를 벗어난 값을 이상치로 간주하는 것을 의미한다.
2. 범주형 데이터
정의 | 처리 방법 | 처리 방법 예시 |
마케팅 채널, 내장 색상, 엔진 종류 등과 같이 그룹이나 범주로 분류하는 데이터 | 분석 및 활용 목적에 따라 정상 범주 목록을 정의하고, 이 범주에 포함되지 않는 데이터를 이상치로 간주하여 데이터를 보완한다. | 마케팅 채널 정보의 정상 범주 목록에 ‘블로그’가 정의되지 않고 있지만 관련 데이터가 수집된 경우 → ‘블로그’ 데이터를 이상치로 간주하고 검토한 후 결과에 따라 ‘블로그’를 정상 범주에 추가하거나, 분류가 불가능할 경우 ‘기타’로 통합하여 처리 |
3. 시간 데이터
정의 | 처리 방법 | 처리 방법 예시 |
구매일, 차량 인도일 등 시간을 나타내는 데이터 | 시간대, 날짜 범위 등을 검토하여 비정상적으로 빠르거나 늦은 값들을 이상치로 간주하여 데이터를 보완한다. | 구매 정보 데이터에서 계약 서명일이 차량 인도일보다 늦은 경우 → 계약 서명일 데이터를 이상치로 간주하고 검토한 후 결과에 따라 계약 서명일 데이터를 보완 |
데이터 표준화 관리
표준화 원칙 2. 데이터 표준화 및 일관성 기준 수립
데이터 형식 표준화
데이터 형식 표준화는 날짜, 전화번호, 시간 등의 데이터의 형식을 확인한 후 표준 형식으로 변환하는 과정을 의미한다. 이는 데이터 수집 자동화↗ 과정에서 정의된 형식에 맞게 데이터가 수집되었는지 확인한 후 변환하는 작업을 수행하며, 이를 통해 데이터 형식의 일관성을 유지할 수 있다.
데이터 인코딩 표준화
데이터 인코딩 표준화는 텍스트 데이터와 범주형 데이터를 처리 가능한 형태로 변환하거나 저장 및 전송을 위한 인코딩 방식을 통일하여 데이터 간 호환성을 유지하고 처리 효율성을 극대화하는 과정을 의미한다. 이는 서로 다른 시스템이나 플랫폼 간에 데이터가 정확하게 해석되고 손실 없이 처리될 수 있도록 보장하기 위한 목적이며, 데이터 분석 과정에서 필요한 경우에만 진행한다.
예를 들어 범주형 데이터 인코딩 같은 경우, 고객 정보 데이터의 성별 정보(남성/여성)나 마케팅 정보 데이터의 행사 참여 여부 정보(예/아니오) 등을 수치형 값으로 변환하여 데이터 분석이나 모델링에 활용할 수 있다.
데이터 일관성 관리
표준화 원칙 2. 데이터 표준화 및 일관성 기준 수립
데이터 일관성 검증 체계 수립
데이터 일관성 검사는 연관성 있는 데이터 필드 간의 논리적 일관성을 확인하여 데이터를 보완하는 과정을 의미한다. 예를 들어, 날짜 필드 간의 순서 또는 특정 상태 값과 연관된 데이터 간의 상호 일관성을 검토할 수 있다. 이 검사를 통해 논리적 조건을 충족하도록 보장하며, 잘못된 데이터가 분석 결과를 왜곡하거나 시스템의 신뢰성을 저하하는 것을 방지할 수 있다. 아래는 데이터 간 논리적 일관성을 검토하기 위한 일부 사례와 점검 방법을 정리한 내용이다.
사례 유형 | 내용 | 검증 방법 예시 |
계약/인도일 간 순서 오류 | 구매 정보 데이터에서 계약 서명일이 차량 인도일보다 늦은 경우 | 차량 인도일은 2025/04/16이나 계약 서명일이 2025/04/20인 경우, 데이터를 확인하여 보완 |
연식/구매일 간 논리 오류 | 차량 정보 데이터에서 연식 정보가 차량 구매일보다 이후인 경우 | 차량 구매일은 2024년도이나 연식 정보가 2025년도인 경우, 데이터를 확인하여 보완 |
데이터 분석을 위한 데이터 구조화
데이터 정규화는 비정형 텍스트 데이터를 정제하여 분석 가능한 형태로 변환하고 일관성을 유지하기 위한 과정을 의미한다. 대소문자 변환, 특수문자 제거, 공백 제거 등을 통해 데이터를 정규화하여 분석 가능한 데이터로 변환하며, 이는 고객 행동 분석, 마케팅 전략 수립 등의 영역에서 활용될 수 있다.
목적에 따른 데이터 클렌징 방안
표준화 원칙 3. 데이터 클렌징 방향성 수립
데이터 클렌징은 데이터의 특성과 분석 목적에 따라 자동화된 시스템을 활용한 클렌징과 담당자의 수기 확인이 필요한 클렌징으로 구분할 수 있다. 각 방식은 데이터의 정확성, 효율성, 그리고 품질 확보를 위해 적절히 선택되어야 한다.
시스템을 통한 자동 데이터 클렌징
시스템을 통한 자동 데이터 클렌징은 명확한 규칙이나 조건을 기반으로, 시스템에서 일괄적으로 처리하는 방식을 의미한다. 대규모 데이터를 효율적으로 처리해야 할 때 적합하며, 구조적인 데이터를 다룰 때 유용할 수 있다.
수기 데이터 클렌징
수작업이 필요한 데이터 클렌징은 자동화가 어려운 예외적 케이스, 복잡한 오류, 또는 데이터의 맥락적 해석이 필요한 경우 담당자가 직접 데이터를 확인하고 보완하는 방식을 의미한다. 데이터의 품질 향상과 세밀한 오류 수정이 필요할 때 활용될 수 있다. 이처럼 데이터 클렌징은 자동과 수기 방식을 적절히 조합하여, 데이터의 신뢰성과 활용도를 높이는 방향으로 수행되어야 한다.
클렌징 방안 | 항목* |
시스템을 통한 자동 데이터 클렌징 | · 중복 데이터 식별 · 결측치 및 이상치 처리 · 데이터 형식 표준화 · 데이터 정규화 · 데이터 인코딩 표준화 |
수기 데이터 클렌징 | · 데이터 일관성 검사 |
*자동 / 수기 데이터 클렌징은 데이터 특성 및 분석 주제에 따라 적용 범위를 다르게 적용해야 한다.
관리 및 고도화
데이터 품질 관리
1. 데이터 품질 관리 대시보드 운영
데이터 품질 상태를 모니터링할 수 있는 대시보드를 운영하여 데이터 클렌징 방법론별 작업 현황을 확인하며, 품질 관리의 효율성을 높인다. 또한, 품질 지표 기반으로 데이터를 관리하여 잠재적인 품질 이슈를 발견하거나 대응할 수 있다.
2. 데이터 클렌징 현황 리포트 발행
데이터 클렌징 작업의 결과를 체계적으로 관리하고, 자동 및 수기 데이터 클렌징 영역에서 진행된 현황을 구분하여 담당자가 데이터 품질을 검토하고 보완할 수 있도록 리포트를 발행한다. 이를 통해 정기적으로 데이터 품질 현황을 파악하고, 데이터 보완 작업의 우선순위를 설정하여 데이터 품질을 개선한다.
3. 데이터 이력 관리
데이터가 정제된 이력을 체계적으로 관리하여, 변경 내역 추적 및 데이터 복원을 가능하게 한다. 데이터의 변동 사항을 명확하게 관리하면 데이터 신뢰성을 유지할 수 있다.
데이터 클렌징 방법론 관리
1. 데이터 클렌징 방법론 현행화
지속적으로 적재되는 데이터 특성에 맞게 데이터 클렌징 방법론을 현행화 해야 한다. 이를 통해 데이터를 지속적으로 최신 상태로 유지할 수 있으며, 장기적인 품질 유지와 개선으로 데이터 활용도를 높일 수 있다.