일반화 2

[3과목] 분석 환경 구축 - 데이터 분할

1. 데이터 분할 (1) 데이터 분할 정의 분석용 데이터로 모형을 구축하여 평가 및 검증하기 위해서 전체 데이터를 학습 데이터, 평가 데이터, 검증용 테스트 데이터로 분할한다. ① 학습(training) 데이터 : 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터이다. ② 평가(validation) 데이터 : 추정한 분석모델이 과대/과소적합인지 모형의 성능을 평가하기 위한 데이터이다. ③ 검증용 데이터(test) 데이터 : 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터이다. - 보통 학습과 검증을 위해서는 7:3 또는 8:2 비율로 진행되며 전체적인 훈련, 평가, 검증용 테스트 데이터 비율은 일반적으로 4:3:3 또는 5:3:2 로 정한다. (2) 과대적합(Overfitti..

[2과목] 추론통계 - 구간추정

1. 구간추정 점추정은 모집단의 모수를 하나의 값으로 추정해 주는 것이다. 그러나 우리가 아무리 좋은 추정방법을 사용한다고 하더라도 표본을 택하고 이 표본으로부터 계산된 추정값이 목표값을 정확하게 추정한다고 주장할 수는 없다. ※ 구간추정(Interval Estimation) 또는 신뢰구간(Confidence Interval) 방법을 적용하면 이러한 부분을 해결할 수 있다. (1) 구간추정의 개념 ※ 구간추정 : 모집단의 특성을 담아내는 구간을 표본자료로부터 산출하는 방법 점추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것이다. 모수가 있을 것으로 예상되는 구간을 정해 그 구간에 실제모수가 있다고 예상되는 확률을 구하는 것이다. ① 일반화 구간의 크기..