IT/빅데이터분석기사

[4과목] 분석모형 평가 - 평가지표

김비서 2021. 9. 12. 23:08
728x90

1. 평가지표

(1) 지도학습 - 분류모델 평가 지표

분석모형의 답과 실제 답과의 관계 오차행렬을 통해 평가한다.

 

* True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)

* False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)

* False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)

* True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답)

- 분류 모델을 평가하는 지표는 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score 등이 있다. 사전에 오차행렬이 준비되어야 한다.

 

① 오차행렬(Confusion Matrix) : 훈련을 통한 예측 성능을 측정하기 위해 예측 값과 실제 값을 비교하기 위한 표이다.

② 정확도(Accuracy) : 실제 데이터와 예측데이터를 비교하여 같은지 판단한다.

③ 정밀도(Precision) : Positive로 예측한 대상 중에 실제와 예측 값이 일치하는 비율이다.

④ 재현도(Recall) : 실제 Positive인 대상 중에 실제와 예측 값이 일치하는 비율이다.

⑤ F1 Score : 정밀도와 재현율을 결합한 조화평균 지표로 값이 클수록 모형이 정확하다고 판단할 수 있다.

⑥ ROC(Receiver Operating Characteristic) 곡선

 

 

(2) 지도학습 - 회귀모델 평가 지표

회귀의 평가를 위한 지표는 실제값과 회귀 예측값의 차이를 기반으로 성능지표들을 수립, 활용한다.

 

① SSE(Sum Squared Error) : 실제값과 예측값의 차이를 제곱하여 더한 값이다.

② MSE(Mean Squared Error) : 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값으로 평균제곱 오차라고도 한다.

③ RMSE(Root Mean Squared Error) : MSE에 루트를 취한 값으로 평균제곱근 오차라고도 한다.

④ MAE(Mean Absolute Error) : 실제값과 예측값의 차이의 절대값을 합한 평균값이다.

⑤ 결정계수 R2 : 회귀모형이 실제값에 대해 얼마나 잘 적합하는지에 대한 비율이다.

⑥ Adjusted R2(수정된 결정계수) : 다변량 회귀분석에서 독립변수가 많아질수록 결정계수가 높아지는데 이를 보완한 결정계수로 표본크기(n)와 독립변수의 개수(p)를 추가적으로 고려하여 분모에 위치시킴으로써 결정계수 값의 증가도를 보정한다.

⑦ MSPE(Mean square Percentage Error) : MSE를 퍼센트로 변환한 값이다.

⑧ MAPE(Mean Absolute Percentage Error) : MAE를 퍼센트로 변환한 값이다.

⑨ RMSLE(Root Mean Squared Logarithmic Error) : RMSE에 로그를 취한 값이다.

⑩ AIC(Akaike Information Criterion) : 최대 우도에 독립변수의 개수에 대한 손실(penalty)분을 반영하는 목적으로 모형과 데이터의 확률 분포 차이를 측정하는 것으로 AIC값이 낮을수록 모형의 적합도가 높아진다.

⑪ BIC(Bayes Information Criteria) : AIC와 동일한 목적을 지니나 주어진 데이터에서 모형의 우도(likelihood)를 측정하기 위한 값에서 유도된 지표로 변수 개수가 많을수록 AIC보다 더 페널티를 가하는 성격을 가진다.

 

(3) 비지도학습 - 군집분석 평가 지표

- 비지도학습은 지도학습과 달리 실측자료에 라벨링이 없으므로 모델에 대한 성능평가가 어렵다.

- 군집분석에 한해 다음과 같은 성능 평가 지표를 참고한다.

① 실루엣 계수(Silhouette)

② Dunn Index

반응형