1. 분석모형 융합
분석 성능을 향상하기 위해 구축된 여러 모형을 결합, 융합한다.
(1) 앙상블 학습
주어진 자료를 이용하여 여러 가지 분석 예측모형들을 만들고 해당 예측모형들을 결합하여 최종적인 하나의 예측모형을 만드는 방법이다.
① 장점 : 치우침이 있는 여러 모형의 평균을 취할시 균형적인 결과(평균)을 얻는다. 또한 여러 모형의 분석 결과를 결합하면 변동성 및 과적합의 여지가 줄어든다.
② 종류 : 배깅, 부스팅, 랜덤 포레스트 등이 있다.
(2) 결합분석 모형
결합분석 모형은 두 종류 이상의 결과변수를 동시에 분석할 수 있는 방법으로 결과 변수 간의 유의성, 관련성을 설명할 수 있다.
2. 최종모형 선정
최종모형을 선정하기 위해 분석모형 평가지표들을 활용, 구축된 부문별 여러 모형을 비교하여 선택한다.
(1) 회귀모형에 대한 주요 성능평가지표
① SSE(Sum Squared Error) : 실제값과 예측값의 차이를 제곱하여 더한 값
② 결정계수 R2 : 적합한 회귀모형이 실제값을 얼마나 잘 적합하는 지에 대한 비율
③ MAE(Mean Absolute Error) : 실제값과 예측값의 차이의 절대값을 합한 평균 값
④ MAPE(Mean Absolute Percentage Error) : MAE 계산시 실제값에 대한 상대적인 비율 고려
(2) 분류모형에 대한 주요 성능평가 지표
(3) 비지도학습 모형에 대한 주요 성능평가지표
① 군집분석 : 군집타당성지표(Clustering Validity Index)로 군집 간 분산과 군집 내 분산으로 (1) 군집 간 거리 (2) 군집의 지름 (3) 군집의 분산 등을 고려한다.
② 연관분석 : 연관분석은 연관규칙에서 지지도와 신뢰도가 모두 최소한도보다 높은 것으로 평가하며 일반적으로 최소 지지도를 정한 뒤에 이에 대한 이하를 버리고 그 중에 신뢰도가 어느정도 높은 결과들을 가져온다.