1. 과대적합 방지
훈련 시에는 높은 성능이나, 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지하고, 일반화된 모델을 생성하기 위해 다음과 같은 방향을 제시한다.
※ 과대적합 방지를 위한 기법을 알아두자.
(1) 모델의 낮은 복잡도
훈련 데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동으로 탐색한다.
- 학습을 하면서 지속적으로 바뀌는 가중치 매개변수가 아닌 상수값이 하이퍼파라미터(학습률, 각 층의 뉴런수 등)는 과대적합의 위험을 줄이기 위해 제약을 가하는 규제의 양을 결정하는 인수로 큰 값을 지정할수록 복잡도가 낮은 모델을 얻게 된다.
- 드롭아웃
: 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법으로 훈련 시에는 삭제할 뉴런을 선택하며 테스트 시에는 모든 뉴런에 신호를 전달, 각 뉴런의 출력에 훈련 때 삭제한 비율을 곱하여 전달한다.
적은 수의 뉴런들로 학습을 진행할 때 시간이 오래 걸리는 단점이 있다.
(2) 가중치 감소
학습과정에서 큰 가중치에 대해서는 큰 패널티를 부과하여 가중치의 절대값을 가능한 작게 만든다. 규제란 과대적합이 되지 않도록 모델을 강제로 제한하는 의미로 L1, L2 규제가 있다.
① L2 규제
- 손실함수에 가중치에 대한 L2 노름(norm)의 제곱을 더한 패널티를 부여하여 가중치 값을 비용함수 모델에 비해 작게 만들어 낸다.
- 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아 큰 가중치를 제한하는데 람다로 규제의 강도를 크게 하면 가중치는 0에 가까워진다.
- 회귀 모델에서 L2 규제를 적용한 것이 릿지(Ridge) 모델이다.

② L1 규제
- L1 규제는 L2 규제의 가중치 제곱을 절대값으로 바꾸는 개념으로 손실 함수에 가중치의 절대값인 L1노름(norm)을 추가 적용하여, 희소한 특성 벡터가 되어 대부분의 특성 가중치를 0으로 만든다.
- 회귀 모델에서 L1규제를 적용한 것이 라쏘(Lasso) 모델이다.
(3) 편향 - 분산 트레이드오프
과대적합과 과소적합 사이의 적절한 편향-분산 트레이드오프, 절충점을 찾는다.