IT/빅데이터분석기사

[3과목] 서포트벡터머신(SVM), 연관성분석

김비서 2021. 9. 12. 00:14
728x90

1. 서포트벡터머신(SVM)

서포트벡터머신(SVM : Support Vetor Machine)은 지도학습 기법으로 고차원 또는 무한 차원의 공간에서 초평면(의 집합)을 찾아 이를 이용하여 분류와 회귀를 수행한다.

 

서포트벡터머신

두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만드는 기법으로 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다.

비선형 분류에서도 사용될 수 있는데 비선형 분류를 하기 위해서 주어진 데이터를 고차원 특징 공간으로 사상하는 작업이 필요하며 이를 효율적으로 하기 위해 커널 트릭을 사용하기도 한다.

 

(1) SVM의 주요 요소

① 벡터(Vector) : 점들 간 클래스(class)

② 결정영역(Decision Boundary) : 클래스들을 잘 분류하는 선

③ 초평면(Hyperplane) : 서로 다른 분류에 속한 데이터들 간 거리를 가장 크게 하는 분류선

    ※ 초평면 : 2차원에서는 직선, 3차원에서는 평면

④ 서포트벡터(Support Vector) : 두 클래스를 구분하는 경계선

⑤ 마진(Margin) : 서포트벡터를 지나는 초평면 사이의 거리

 

 

(2) SVM의 핵심적 특징

- 기존 분류기가 '오류율 최소화'를 특징으로 한다면 SVM은 '여백(마진) 최대화'로 일반화 능력의 최대화를 추구한다.

- 마진이 가장 큰 초평면을 분류기(classifier)로 사용할 때, 새로운 자료에 대한 오분류가 가장 낮아진다.

- 아래 그림에서 가운데 직선이 초평면이며 양쪽 점선이 서포트 직선이다. 직선을 두개 정의하는데 두 직선 다 초평면과 같은 법선 벡터를 가지고 있고 1만큼의 거리를 둔 식으로 w*x -b = 1, w*x -b = -1로 나타낸다.

 

SVM(서포트벡터머신) [출처 : 이기적스터디카페]

 

- 초평면의 마진은 각 서포트 벡터를 지나는 초평면 사이의 거리를 의미한다. 기하학적 의미는 두 초평면 사이의 거리, 즉 2/||w|| 라는 것을 알 수 있으며 마진을 최대화해야 하므로 w의 크기가 최소가 되어야 한다.

- 선형으로 분리가 가능한 경우에는 분리 초평면은 h(x) < 0 인 모든 점들은 -1의 군집으로, h(x) > 0인 모든 점들은 +1의 군집으로 분류되도록 구해질 수 있다.

- 가중치 벡터는 초평면에 직교하며 편향은 초평면의 오프셋(offset)을 제공한다.

 

 

2. 연관성분석

둘 이상의 거래, 사건에 포함된 항목들의 연관성을 파악하는 탐색적 데이터 분석기법으로 콘텐츠 기반 추천(Contents-based Recommendation)의 기본 방법론으로도 알려져 있다. 그룹에 대한 특성 분석으로 군집 분석과 병행 가능하며 장바구니 분석(Market Basket Analysis)으로도 불린다.

 

연관성분석

유사한 개체들을 그룹화하여 각 집단의 특성 파악에 활용되며 사건의 연관규칙을 찾는 기법으로 목표변수가 없는 비지도 학습에 해당된다.
장바구니의 아이템들, 예를 들면 거래 정보를 담고 구매 패턴과 여러 구매들 사이에서의 상품, 구매행동, 이용자들 간의 연관성을 분석할 때 일정한 규칙을 찾아내게 된다. 고객 군 파악, 특정 구매를 한 이유 이해, 상품(제품)에 대한 통찰력 확보, 프로모션/마케팅 프로그램/상점 레이아웃 정비 등 마케팅 전략계획 수립 등으로 활용된다.

 

(1) 연관규칙(Association Rule) 순서

① 데이터 간 규칙 생성 : if 조건절(Antecendent) → 결과절(Consequent)

② 어떤 규칙이 데이터 특성에 부합되는지 기준 설정

  - 지지도(support)

  - 신뢰도(confidence)

  - 향상도(lift)

③ 규칙의 효용성 평가

④ 실제 규칙 생성

 

(2) Apriori 알고리즘

모든 항목집합에 대한 지지도를 계산하는 대신 최소 지지도 이상의 빈발항목집합만을 찾아내서 연관규칙을 계산하는 기법이다.

반응형