[4과목] 분석모형 개선 - 과대적합 방지

IT/빅데이터분석기사

김비서 2021. 9. 13. 23:18

728x90

1. 과대적합 방지

훈련 시에는 높은 성능이나, 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지하고, 일반화된 모델을 생성하기 위해 다음과 같은 방향을 제시한다.

※ 과대적합 방지를 위한 기법을 알아두자.

(1) 모델의 낮은 복잡도

훈련 데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동으로 탐색한다.

- 학습을 하면서 지속적으로 바뀌는 가중치 매개변수가 아닌 상수값이 하이퍼파라미터(학습률, 각 층의 뉴런수 등)는 과대적합의 위험을 줄이기 위해 제약을 가하는 규제의 양을 결정하는 인수로 큰 값을 지정할수록 복잡도가 낮은 모델을 얻게 된다.

- 드롭아웃

: 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법으로 훈련 시에는 삭제할 뉴런을 선택하며 테스트 시에는 모든 뉴런에 신호를 전달, 각 뉴런의 출력에 훈련 때 삭제한 비율을 곱하여 전달한다.

적은 수의 뉴런들로 학습을 진행할 때 시간이 오래 걸리는 단점이 있다.

(2) 가중치 감소

학습과정에서 큰 가중치에 대해서는 큰 패널티를 부과하여 가중치의 절대값을 가능한 작게 만든다. 규제란 과대적합이 되지 않도록 모델을 강제로 제한하는 의미로 L1, L2 규제가 있다.

① L2 규제

- 손실함수에 가중치에 대한 L2 노름(norm)의 제곱을 더한 패널티를 부여하여 가중치 값을 비용함수 모델에 비해 작게 만들어 낸다.

- 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아 큰 가중치를 제한하는데 람다로 규제의 강도를 크게 하면 가중치는 0에 가까워진다.

- 회귀 모델에서 L2 규제를 적용한 것이 릿지(Ridge) 모델이다.

② L1 규제

- L1 규제는 L2 규제의 가중치 제곱을 절대값으로 바꾸는 개념으로 손실 함수에 가중치의 절대값인 L1노름(norm)을 추가 적용하여, 희소한 특성 벡터가 되어 대부분의 특성 가중치를 0으로 만든다.

- 회귀 모델에서 L1규제를 적용한 것이 라쏘(Lasso) 모델이다.

(3) 편향 - 분산 트레이드오프

과대적합과 과소적합 사이의 적절한 편향-분산 트레이드오프, 절충점을 찾는다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

Amazing Story