IT/빅데이터분석기사

[4과목] 분석모형 평가 - 분석모형 진단, 교차검증, 적합도 검정

김비서 2021. 9. 13. 23:08
728x90

1. 분석모형 진단

(1) 정규성 가정

정규성 가정은 통계적 검정, 회귀분석 등 분석을 진행하기 전에 데이터가 정규분포를 따르는지를 검정하는 것으로 데이터 자체의 정규성을 확인하는 과정이다.

 

① 중심극한정리(Central Limit Theorem)

- 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론으로 이때 표본분포의 평균은 모집단의 모평균과 동일하며 표준편차는 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것과 같다.

 

② 정규성 검정 종류

- Shaprio-Wilks Test : 표본수(n)가 2000개 미만인 데이터셋에 적합하다.

- Kolmogorove-Smirnov Test : 표본수(n)가 2000개 초과인 데이터셋에 적합하다.

- Quantile-Quantile Plot(Graphic Test) : 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법으로 표본수(n)가소규모일 경우 적합하다.

데이터셋이 정규분포를 따른다는 귀무가설(H0)을 기각하고 대립가설이 채택된다면(p<0.01 또는 p=0.05) 해당 데이터셋은 정규분포를 따르지 않음으로 증명된다.

 

 

(2) 잔차 진단

회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은 실측치와 예측치의 차이인 잔차를 가장 작게 해주는 선으로 잔차의 합은 0이며 잔차는 추세, 특정 패턴을 가지고 있지 않다.

 

① 잔차의 정규성 진단

신뢰구간 추정과 가설검증을 정확하게 하기 위해 Q-Q Plot과 같은 시각화 도표를 통해 정규분포와 잔차의 분포를 비교한다.

 

② 잔차의 등분산성 진단

잔차의 분산이 특정 패턴이 없이 순서와 무관하게 일정한지 등분산성을 진단한다

 

③ 잔차의 독립성 진단

잔차의 독립성이란 자기상관(auto correlation)의 여부를 판단하는 것이며 시점 순서대로 그래프를 그리거나 Durbin-Watson 검정으로 패턴이 없다면 독립성을 충족한다고 할 수 있다. 만일 독립성이 위배가 된다면 시계열 분석(Time Series)을 통해 회귀분석을 진행해야 한다.

 

 

2. 교차검증

- 고정된 훈련데이터 셋과 테스트 검증데이터 셋으로 평가를 하여 반복적으로 튜닝하게 될 시 테스트 데이터 셋에 과적합 되어버리는 결과가 생길 수 있는데 이를 방지하고자 나온 방법이 교차 검증 기법이다.

 

- k-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복없이 병행 진행한 후 평균을 내어 최종적 모델의 성능을 평가한다.

 

- 교차검증은 모든 데이터셋을 평가에 활용하여 과적합을 방지할 수 있으나 반복 횟수 증가에 다른 모델 훈련과 평가/검증 시간이 오래 걸릴 수 있다.

 

- 교차검증 기법들로 k-fold 교차검증 외 홀드아웃 기법(Holdout Method), 리브-p-아웃 교차검증(Leave-p-out cross Validation), 리브-원-아웃 교차검증(Leave-one-out Cross Validation), 계층별 k-겹 교차검증(Stratified k-fold Cross Validation) 등이 있다.

 

 

3. 적합도 검정

Goodness-of-fit 검정이라고도 하며 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법이다.

 

(1) 카이제곱 검정

카이제곱 검정은 기대값과 관측값을 이용한 방법으로 k개의 범주별로 나뉘어진 관측치들과 이와 동일한 범주의 가정된 분포 사이의 적합도를 검정하며 범주형 값 k가 나와야 할 횟수의 기댓값 Mk와 실제 나옷 횟수 Xk의 차이를 이용하여 검정통계량을 구한다.

 

(2) 콜로고로프 스미르노프 검정(K-S Test : Kolmogorov-Smirnov Test)

관측된 표본분포와 가정된 분포사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법으로 연속형 데이터에도 적용할 수 있다.

반응형