[3과목] 분석 환경 구축

IT/빅데이터분석기사

[3과목] 분석 환경 구축 - 데이터 분할

김비서 2021. 9. 8. 00:04

728x90

1. 데이터 분할

(1) 데이터 분할 정의

분석용 데이터로 모형을 구축하여 평가 및 검증하기 위해서 전체 데이터를 학습 데이터, 평가 데이터, 검증용 테스트 데이터로 분할한다.

① 학습(training) 데이터 : 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터이다.

② 평가(validation) 데이터 : 추정한 분석모델이 과대/과소적합인지 모형의 성능을 평가하기 위한 데이터이다.

③ 검증용 데이터(test) 데이터 : 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터이다.

- 보통 학습과 검증을 위해서는 7:3 또는 8:2 비율로 진행되며 전체적인 훈련, 평가, 검증용 테스트 데이터 비율은 일반적으로 4:3:3 또는 5:3:2 로 정한다.

(2) 과대적합(Overfitting)과 과소적합(Underfitting)

① 과대적합(과적합)

일반적으로 학습 데이터는 실제 데이터의 부분 집합이므로 학습 데이터에 최적화된 분석 모델이 만들어지게 되면 실제 데이터에서 오차가 발생할 확률이 크다.

- 학습(훈련) 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 새로운 데이터에 대해서는 예측을 잘 하지 못하는 것을 과대적합이라고 한다.

- 과대적합 방지를 위한 것으로 데이터 분할 외에 K-fold 교차검증, 정규화 등의 방법이 있다.

② 과소적합

모형이 단순하여 데이터 내부의 패턴 또는 규칙을 잘 학습하지 못하는 것을 과소적합이라 한다. 이것은 학습 데이터에서도 정확한 결과를 도출하지 못한다.

③ 일반화

학습 데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도 검증용 테스트 데이터를 통해 정확하게 예측하는 모델을 일반화된 모형이라고 한다.