1. 데이터의 정제
수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정이다.
① 데이터 정제의 과정(Processing)
- 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요하다.
- 시스템 내,외부에서 데이터를 수집하면 정형보다 비정형 데이터(Unstructured Data)들이 많다. 비정형 데이터의 경우 기본적으로 구조화된 정형 데이터(Structured Data)로의 변환을 수행하고 변환된 데이터에서 결측치나 오류의 수정 과정을 거친다.
- 기존 시스템 내의 데이터와 비교분석이 필요한 경우 레거시(Legacy Data. 과거로부터 물려 내려온 것)와 통합, 변환의 과정이 발생할 수 있다.
※ 데이터의 수집 → 데이터의 변환 → 데이터의 교정 → 데이터의 통합
② 데이터 정제의 전처리, 후처리
- 전처리(Pre Processing) : 데이터 저장 전의 처리과정으로 대상 데이터와 입수방법 결정 및 저장방식 장소를 선정한다.
- 후처리(Post Processing) : 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함한다.
2. 데이터 결측값 처리
데이터 분석에서 결측치(Missing Data)는 데이터가 없음을 의미한다.
1) 결측 데이터의 종류
① 완전 무작위 결측(MCAR : Missing Completely At Random)
: 어떤 변수 상에서 결측 데이터가 관측된 혹은 관측되지 않은 다른 변수와 아무런 연관이 없는 경우이다.
※ 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 대규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능하다.
② 무작위 결측(MAR : Missing At Random)
③ 비 무작위 결측(NMAR : Not Missing At Random)
2) 결측값 유형의 분석 및 대치
- 보편적으로 결측, 무응답을 가진 자료를 분석할 때는 적절한 가정(MCAR)하에 처리한다. 즉, 불완전한 자료는 무시하고 완전히 관측된 자료만을 표준적 분석을 시행한다. 그러나 이런 결측치가 존재하는 데이터를 이용한 분석은 다음 세 가지 고려사항이 발생하는데 효율성문제(efficiencey), 자료처리의 복잡성, 편향(bias) 문제이다.
※ 결측값을 어떻게 처리하는지 확인한다.
① 단순 대치법(Simple Imputation)
: 기본적으로 결측치에 대하여 MCAR 또는 MAR로 판단하고 이에 대한 처리를 하는 방법이다.
- Completes Analysis
- 평균 대치법(Mean Imputation)
- 회귀 대치법(Regression Imputation)
- 단순확률 대치법(Single Stochastic Imputation)
- 최근방 대치법(Nearest-Neighbor Imputation)
② 다중 대치법(Multiple Imputation)
단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완하기 위하여 만들어진 방법이다.
- 1단계 - 대치단계(Imputation Step)
- 2단계 - 분석단계(Analysis Step)
- 3단계 - 결합단계(Combination Step)
3. 데이터 이상값 처리
이상치(Outlier)란 데이터의 전처리 과정에 발생 가능한 문제로 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미한다.
1) 이상치의 종류 및 발생원인
① 이상치의 종류
- 단변수 이상치(Univariate Outlier)
- 다변수 이상치(Multivariate Outlier)
② 이상치의 발생 원인
- 비자연적 이상치 발생(Artificial / Non-Natural Outlier)
* 입력실수(Data Entry Error)
* 측정오류(Measurement Error)
* 실험오류(Experimental Error)
* 의도적 아웃라이어(Intentional Outlier)
* 자료처리오류(Data Processing Error)
* 표본오류(Sampling Error)
- 자연적 이상치(Natural Outlier) : 상기 경우 이외에 발생하는 이상치
2)이상치의 문제점
① 기초(통계적) 분석결과의 신뢰도 저하
② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
3) 이상치의 탐지
① 시각화(visualization)를 통한 방법(비모수적, 단변량(2변량)의 경우)
- 상자수염그림, 줄기-잎 그림
- 산점도 그림
② Z-Score 를 통한 방법( 모수적 단변량 또는 저번량의 경우)
③ 밀도기반 클러스터링 방법(DBSCAN: Density Based Spatial Clustering of Application with Nosie)
④ 고립 의사나무 방법(Isolation Forest)