IT/빅데이터분석기사

[2과목] 빅데이터 탐색 - 데이터의 정제, 결측값, 이상값

김비서 2021. 8. 21. 20:37
728x90

1. 데이터의 정제

수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정이다.

 

① 데이터 정제의 과정(Processing)

- 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요하다.

- 시스템 내,외부에서 데이터를 수집하면 정형보다 비정형 데이터(Unstructured Data)들이 많다. 비정형 데이터의 경우 기본적으로 구조화된 정형 데이터(Structured Data)로의 변환을 수행하고 변환된 데이터에서 결측치나 오류의 수정 과정을 거친다. 

- 기존 시스템 내의 데이터와 비교분석이 필요한 경우 레거시(Legacy Data. 과거로부터 물려 내려온 것)와 통합, 변환의 과정이 발생할 수 있다.

※ 데이터의 수집  →  데이터의 변환  →  데이터의 교정  →  데이터의 통합

 

② 데이터 정제의 전처리, 후처리

- 전처리(Pre Processing) : 데이터 저장 전의 처리과정으로 대상 데이터와 입수방법 결정 및 저장방식 장소를 선정한다.

- 후처리(Post Processing) : 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함한다.

 

 

2. 데이터 결측값 처리

데이터 분석에서 결측치(Missing Data)는 데이터가 없음을 의미한다.

 

1) 결측 데이터의 종류

① 완전 무작위 결측(MCAR : Missing Completely At Random)

: 어떤 변수 상에서 결측 데이터가 관측된 혹은 관측되지 않은 다른 변수와 아무런 연관이 없는 경우이다.

※ 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 대규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능하다.

② 무작위 결측(MAR : Missing At Random)

③ 비 무작위 결측(NMAR : Not Missing At Random)

 

 

2) 결측값 유형의 분석 및 대치

- 보편적으로 결측, 무응답을 가진 자료를 분석할 때는 적절한 가정(MCAR)하에 처리한다. 즉, 불완전한 자료는 무시하고 완전히 관측된 자료만을 표준적 분석을 시행한다. 그러나 이런 결측치가 존재하는 데이터를 이용한 분석은 다음 세 가지 고려사항이 발생하는데 효율성문제(efficiencey), 자료처리의 복잡성, 편향(bias) 문제이다.

※ 결측값을 어떻게 처리하는지 확인한다.

 

① 단순 대치법(Simple Imputation)

: 기본적으로 결측치에 대하여 MCAR 또는 MAR로 판단하고 이에 대한 처리를 하는 방법이다.

- Completes Analysis

- 평균 대치법(Mean Imputation)

- 회귀 대치법(Regression Imputation)

- 단순확률 대치법(Single Stochastic Imputation)

- 최근방 대치법(Nearest-Neighbor Imputation)

 

② 다중 대치법(Multiple Imputation)

단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완하기 위하여 만들어진 방법이다.

- 1단계 - 대치단계(Imputation Step)

- 2단계 - 분석단계(Analysis Step)

- 3단계 - 결합단계(Combination Step)

 

 

3. 데이터 이상값 처리

이상치(Outlier)란 데이터의 전처리 과정에 발생 가능한 문제로 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미한다. 

 

1) 이상치의 종류 및 발생원인

① 이상치의 종류

- 단변수 이상치(Univariate Outlier)

- 다변수 이상치(Multivariate Outlier)

 

② 이상치의 발생 원인

- 비자연적 이상치 발생(Artificial / Non-Natural Outlier)

  * 입력실수(Data Entry Error)

  * 측정오류(Measurement Error)

  * 실험오류(Experimental Error)

  * 의도적 아웃라이어(Intentional Outlier)

  * 자료처리오류(Data Processing Error)

  * 표본오류(Sampling Error)

- 자연적 이상치(Natural Outlier) : 상기 경우 이외에 발생하는 이상치

 

 

2)이상치의 문제점

① 기초(통계적) 분석결과의 신뢰도 저하

② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하

 

 

3) 이상치의 탐지

① 시각화(visualization)를 통한 방법(비모수적, 단변량(2변량)의 경우)

- 상자수염그림, 줄기-잎 그림

- 산점도 그림

② Z-Score 를 통한 방법( 모수적 단변량 또는 저번량의 경우)

③ 밀도기반 클러스터링 방법(DBSCAN: Density Based Spatial Clustering of Application with Nosie)

④ 고립 의사나무 방법(Isolation Forest)

반응형