IT/빅데이터분석기사

[4과목] 분석모형 개선 - 매개변수 최적화

김비서 2021. 9. 13. 23:47
728x90

1. 매개변수 최적화

매개변수 최적화(Optimization)의 뜻은 학습(예측) 모델과 실제 값의 차이가 손실함수로 표현될 때 손실함수의 값을 최소화하도록 하는 매개변수, 즉 가중치와 편향을 찾는 매개변수의 최적값을 탐색하는 과정이라고 할 수 있다.

 

(1) 확률적 경사 하강법(SGD : Stochastic Gradient Descent)

확률적 경사 하강법은 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘이다.

- 데이터 전체를 선택하는 배치 경사 하강법 대비 랜덤으로 선택한 하나의 데이터로만 계산하는 단순하고 명확한 구조가 장점이나 최소값인 (0,0)까지 지그재그로 이동, 매개변수가 방향에 따라 다른 기울기를 갖는 비등방성 함수인 경우 비효율적인 움직임을 보인다.

- 해당 알고리즘 수식은 갱신할 가중치 매개변수인 W, dL/dw, 손실함수의 기울기와 학습률로 설명한다.

[출처 : 이기적스터디카페]

 

(2) 모멘텀(Momentum)

모멘텀은 운동량을 뜻하며 확률적 경사 하강법에 속도 개념인 기울기 방향으로 힘을 받으면 물체가 가속되는 물리법칙을 알고리즘에 적용한 것이다.

- V(속도)항에 기울기 값이 누적되고, 누적된 값이 가중치 갱신에 영향을 주면서 이 기울기 값으로 인해 빠른 최적점 수렴이 가능하다.

[출처 : 이기적스터디카페]

 

(3) AdaGrad(Adaptive Gradient) Algorithm

개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행하는 알고리즘으로 첫 부분에서는 크게 학습하다가 최적점에 가까울수록 학습률을 줄여 조금씩 작게 학습한다.

- 새로 나온 변수 h는 기존 기울기 값을 제곱하여 계속 더해주며 매개변수를 갱신할 때 h의 제곱근을 나눠주어 모든 가중치가 이전에 갱신되었던 크기에 맞게 학습률이 조정된다.

[출처 : 이기적스터디카페]

 

(4) Adam(Adaptive Moment Estimation)

모멘텀과 AdaGrad를 결합한 방법론으로 학습률, 일차 모멘텀 계수, 이차 모멘텀 계수의 3가지 초매개변수들을 설정한다. 

최적점 탐색 경로의 전체적인 경향은 모멘텀과 같이 공이 굴러가는 듯하다. AdaGrad로 인해 갱신 강도가 조정되어 좌우 흔들림이 덜함을 볼 수 있다.

[출처 : 이기적스터디카페]

 

(5) 초매개변수(하이퍼파라미터, HyperParameter) 최적화

초매개변수란 사람이 직접 설정해주어야 하는 매개변수로 뉴런의 수, 배치(batch) 크기, 학습률(learning rate), 가중치 감소시의 규제 강도(regularizationstrength) 등이 있다.

① 미니배치(Mini-Batch) 크기 : 미니배치 크기가 큰 경우 병렬연산 구조를 사용할 때 효과적일 수 있으며, 크기가 작으면 더 많은 가중치 업데이트를 할 수가 있다.

② 훈련 반복(Epoch) 횟수 : 학습의 조기 종료를 결정하는 변수가 된다.

③ 은닉층(Hidden Layer) 개수

  - 은닉층 수가 많아질수록 특정 훈련 데이터에 더 최적화시킬 수 있다.

  - 모든 은닉층들의 뉴런의 개수를 동일하게 유지하는 것이 같은 은닉층 개수에 뉴런의 개수를 가변적으로 하는 것보다 효과적이다.

  - 첫번째 은닉층에 있는 뉴런의 개수가 입력층에 있는 뉴런의 개수보다 큰 것이 효과적인 경우가 많다.

 

 

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

https://cafe.naver.com/yjbooks/10646

 

[4과목] 분석모형 개선 - 매개변수 최적화

매개변수 최적화 매개변수 최적화(Optimization)의 뜻은 학습(예측) 모델과 실제 값의 차이가 손실함수로 표현될 때 손실함수의 값을 최소화하도록 하는 매개변수, 즉 가...

cafe.naver.com

 

반응형