IT/빅데이터분석기사

[4과목] 분석모형 개선 - 분석모형 융합, 최종모형 선정

김비서 2021. 9. 14. 23:15
728x90

1. 분석모형 융합

분석 성능을 향상하기 위해 구축된 여러 모형을 결합, 융합한다.

 

(1) 앙상블 학습

주어진 자료를 이용하여 여러 가지 분석 예측모형들을 만들고 해당 예측모형들을 결합하여 최종적인 하나의 예측모형을 만드는 방법이다.

 

① 장점 : 치우침이 있는 여러 모형의 평균을 취할시 균형적인 결과(평균)을 얻는다. 또한 여러 모형의 분석 결과를 결합하면 변동성 및 과적합의 여지가 줄어든다.

② 종류 : 배깅, 부스팅, 랜덤 포레스트 등이 있다.

 

(2) 결합분석 모형

결합분석 모형은 두 종류 이상의 결과변수를 동시에 분석할 수 있는 방법으로 결과 변수 간의 유의성, 관련성을 설명할 수 있다. 

 

 

2. 최종모형 선정

최종모형을 선정하기 위해 분석모형 평가지표들을 활용, 구축된 부문별 여러 모형을 비교하여 선택한다.

 

(1) 회귀모형에 대한 주요 성능평가지표

① SSE(Sum Squared Error) : 실제값과 예측값의 차이를 제곱하여 더한 값

② 결정계수 R2 : 적합한 회귀모형이 실제값을 얼마나 잘 적합하는 지에 대한 비율

③ MAE(Mean Absolute Error) : 실제값과 예측값의 차이의 절대값을 합한 평균 값

④ MAPE(Mean Absolute Percentage Error) : MAE 계산시 실제값에 대한 상대적인 비율 고려

 

 

(2) 분류모형에 대한 주요 성능평가 지표

분류모형에 대한 주요 성능평가 [출처 : 이기적스터디카페]

 

 

(3) 비지도학습 모형에 대한 주요 성능평가지표

① 군집분석 : 군집타당성지표(Clustering Validity Index)로 군집 간 분산과 군집 내 분산으로 (1) 군집 간 거리 (2) 군집의 지름 (3) 군집의 분산 등을 고려한다.

[출처 : 이기적스터디카페]

 

② 연관분석 : 연관분석은 연관규칙에서 지지도와 신뢰도가 모두 최소한도보다 높은 것으로 평가하며 일반적으로 최소 지지도를 정한 뒤에 이에 대한 이하를 버리고 그 중에 신뢰도가 어느정도 높은 결과들을 가져온다.

반응형