1. 베이즈 기법
(1) 베이즈 추론
베이즈 추론(베이지안 추론, Bayesian Inference)은 통계적 추론의 한 방법으로, 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법이다.
베이즈 추론은 베이즈 확률론을 기반으로 하며, 이는 추론하는 대상을 확률변수로 보아 그 변수의 확률변수를 추정하는 것을 의미한다.
① 확률론적 의미해석(조건부 확률)
② 베이즈 기법의 개념
- 베이즈 확률에는 두 가지 시점이 있는데 그 하나는 객관적 관점으로 베이즈 통계의 법칙은 이성적, 보편적으로 증명될 수 있으며 논리의 확장으로 설명될 수 있다는 것이다. 한편 주관주의 확률 이론의 관점으로 보면 지식의 상태는 개인적인 믿음의 정도(Degree of Belief)로 측정할 수 있다.
(2) 베이즈 기법 적용
머신러닝에서의 베이즈 확률모델을 적용하는 원리는 크게 회귀분석모델(Regression Model)과 분류(Classification)에 적용을 나누어서 정리한다.
① 회귀분석모델에서 베이즈 기법의 적용
- 선형회귀분석모델(Linear Regression)
- 기존 머신러닝의 방법
- 베이지안 확률론의 적용개념
② 분류에서 베이즈 기법의 적용
- 나이브 베이즈 분류(Naive Bayes Classification)
- 나이브 베이즈의 특성
분류기를 만들 수 있는 간단한 기술로서 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련된다. 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값이 서로 독립임을 가정한다.
- 나이브 베이즈의 장점
일부 확률모델에서 나이브 베이즈 분류는 지도 학습(Supervised Learning) 환경에서 매우 효율적으로 훈련될 수 있다.
분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적다.
간단한 디자인과 단순한 가정에도 불구하고, 나이브 베이즈 분류는 많은 복잡한 실제 상황에서 잘 작동한다.
- 나이브 베이즈 분류기의 생성(확률모델)
- 이벤트 모델
-나이브 베이즈 분류의 적용
분류기반의 머신러닝 적용을 하는데 광범위하게 사용되며 예시로 문서분류(스팸분류) 등이 있다.