1. 군집분석
비지도학습의 일종으로 주어진 각 개체들의 유사성을 분석해서 높은 대상끼리 일반화된 그룹으로 분류하는 기법이다. 규칙 내지 결과 없이 주어진 데이터들을 가장 잘 설명하는 그룹 또는 클러스터를 찾을 수 있는 방법으로 복잡하고 다양한 대상들을 이해하기 쉽게 구분한다.
군집분석 이상치에 민감하여 신뢰성과 타당성 검증이 어려우나 사전 정보 없이 특정 패턴, 속성을 파악하기 위한 효과적인 그룹 분류 기법으로 통용된다. 유통, 서비스 등 업종 분야에서 VIP 핵심 고객들을 군집화하거나 마케팅 조사에서 실제 앱 이용자들을 더 잘 이해하기 위해 이용자 정보와 이용 패턴 데이터를 수집하여 고객 세그멘테이션을 군집 분석 알고리즘을 통해 진행할 수 있다. 유사한 성향을 보이는 프랜차이즈 매장끼리 군집화하여 차별화된 관리가 가능하며 인터넷 사기/스팸 발견, 소셜 네트워크 그룹 연구, 주거 그룹 판별 조사, 지구 환경 및 생물체 연구 등 폭넓게 활용되는 추세이다. |
(1) 군집분류시 기본적인 가정
- 하나의 군집 내에 속한 개체들의 특성은 동일하다.
- 군집의 개수 또는 구조와 관계없이 개체간의 거리를 기준으로 분류한다.
- 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 나타낸다.
(2) 군집분석의 척도
군집분석의 유사성 계산은 방법에 따라 거리와 유사성으로 구분하는데 거리는 값이 작을수록 두 관찰치가 유사함을 의미하며 유클리드 거리, 맨하탄 거리 등이 있다. 반대로 유사성은 값이 클수록 두 관찰치가 서로 유사함을 뜻하며 코사인 값, 상관계수 등이 있다.
※ 각 거리 개념에 어떤 차이가 있는지 구분하도록 한다.
① 유클리드 거리(Educlidean Distance)
2차원 공간에서 두 점간의 거리로 두 점을 잇는 가장 짧은 거리 개념인 피타고라스 정리를 통해 측정하며 민코우스키 거리(m=2) 적용시 L2 거리로도 불린다.
② 맨하탄 거리(Manhattan Distance)
택시 거리, 시가지 거리, 민코우스키 거리(m=1) 적용시 L1 거리로도 통칭되며 사각형 격자, 블록으로 이뤄진 지도에서 출발점에서 도착점까지 가로지르지 않고 도착하는 최단거리 개념이다.
③ 민코우스키 거리(Minkowski Distance)
m차원 민코프스키 공간에서의 거리를 뜻하며 m=1 일 때 맨하탄 거리와 같고 m=2일 때 유클리드 거리와 같다.
- 민코프스키 공간은 아인슈타인의 특수 상대성 이론과 밀접한 관계가 있는 시공간으로 일반적인 3차원 유클리드 공간에 시간이 결합한 4차원적 다양체로 알려져 있다.
④ 마할라노비스 거리(Mahalanobis Distance)
일반적인 다변량 데이터에서 두 데이터 간의 거리를 파악하기 위해 서로 다른 의미를 지닌 특징간의 상관관계를 고려해야 한다. 두 특징 간 나타나는 데이터의 방향성과 상관도를 나타낸 공분산 행렬(Covariance Matrix) 개념을 적용하여 정규 분포에서 특정 값이 얼마나 평균에서 멀리 있는지를 나타낸 거리이다.
⑤ 자카드 거리(Jaccard Distance)
비교 대상인 두 개의 객체를 특징들의 집합(Sets of Characteristics)으로 간주하며 범주형 데이터에서 비유사성을 측정하는 지표이다.
- 자카드 인덱스(Jaccard Index)는 집합 X와 집합 Y의 합집합(Union)의 원소의 개수로 나눈 값으로 1에서 자카드 인덱스를 뺀 값이 자카드 거리로 비유사성 측도로 계산된다.
(3) 군집분석의 종류
- 병합 방식 : N 군집에서 시작, 하나의 군집이 남을 때까지 순차적으로 유사한 군집들을 병합
- 분할 방식 : 전체 하나의 군집에서 시작, N 군집으로 분할