IT/빅데이터분석기사

[3과목] 고급 분석기법 - 앙상블 분석

김비서 2021. 9. 12. 20:50
728x90

1. 앙상블 분석

(1) 앙상블 분석의 정의

앙상블(Ensemble) 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념이다.

① 약학습기(약분류기, Weak Learner) : 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하(50% 이하)인 학습 규칙을 말한다. 가능성 있는 다양한 복수의 학습 규칙이다.

 

② 강학습기(강분류기, Strong Learner)

Weak Learner로부터 만들어내는 강력한 학습 규칙을 의미한다.

 

 

(2) 앙상블 분석의 이해

동일한 학습 알고리즘을 이용할 때, 앙상블 분석이 한 개의 Single Learner에 의한 분석보다는 더 나은 분석성능을 이끌어낼 수 있다.

앙상블 기법은 다양한 Weak Learner를 통해 Strong Learner를 만들어가는 과정이다.

 

 

(3) 앙상블 분석의 분류

① 투표방법(Voting)

Voting은 뜻 그대로 투표를 통해 결정하는 방식이다. Voting은 Bagging과 투표방식이라는 점에서 유사하지만 사용법에서 차이점이 있다.

- Voting은 다른 알고리즘 model을 조합해서 사용하낟. 이에 반해 Bagging은 같은 알고리즘 내에서 다른 sample 조합을 사용한다. 즉, Voting은 서로 다른 알고리즘이 도출해 낸 결과물에 대하여 최종 투표하는 방식을 통해 최종 결과를 선택한다.

- Hard Vote는 결과물에 대한 최종 값을 투표해서 결정하는 방식이다.

- Soft Vote는 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종 값을 도출해내는 방법이다.

 

② 부스팅(Boosting)

부스팅은 가중치를 활용하여 연속적인(sequential) 약학습기를 생성하고 이를 통해 강학습기를 만드는 방법이다.

 

③ 배깅(Bagging : Bootstrap Aggregation)

배깅은 샘플을 여러 번 뽑아(bootstrap) 각 모델을 학습시켜 결과물을 집계(aggregation)하는 방법이다.

- 배깅은 간단하면서도 강력한 방법이며 배깅 기법을 활용한 모델이 바로 랜덤 포레스트(Random Forest)이다.

 

※ Voting과 Bagging의 차이를 확인하도록 한다.

반응형