1. 분석기법 개요
(1) 학습 유형에 따른 데이터 분석 모델
① 지도학습(Supervised Learning)
- 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습한다.
- 세부적으로 지도학습 모델은 크게 분류와 예측 모델로 구분되며 각 부문별 활용되는 데이터분석 기법은 다음과 같이 나뉜다.
※ 분류와 예측 모델을 구분할 줄 알아야 한다.
② 비지도학습(Unsupervised Learning) : 정답없이 컴퓨터 스스로 입력데이터 패턴을 구분하도록 학습한다.
③ 준지도학습(Semi-supervised Learning) : 효율적 학습을 위해 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는 잠재변수를 찾게 된다.
④ 강화학습(Reinforcement Learning) : 주어진 환경에서 보상을 최대화하도록 에이전트를 학습하는 기법이다.
(2) 데이터 분석 알고리즘과 분야
- 업리프트 모델링은 마케팅 캠페인에서 많이 사용하는 기법으로 실제로는 추정모델을 단계별로 적용하는 기법이며, A/B 테스트와 같이 환경이나 조건을 달리 한 후에 적당한 그룹을 선택하여 마케팅이나 신용 관리, 채널, 가격 선택, 고객 이탈 관리 등 다양한 분야에 사용한다.
- 회귀분석은 예측이나 분류에 사용하는 대중적인 알고리즘으로 특히 로지스틱 회귀분석은 신용 평가에 많이 사용된다.
- 시각화는 원인과 관계 파악을 위해 주로 사용된다. 사용되는 분야는 GIS로 위치 분석을 할 때 많이 사용된다.
- 군집분석은 주요 IT업체에서 개인화 서비스를 위해 이용한다.
- 영화 추천을 위한 예측 기법으로 앙상블 기법을 사용하는데 여러 개의 모형들을 만든 후에 이들을 결합하여 하나의 최종 예측 모형을 만들어 사용한 사례들도 있다.
- 이자율이나 주식 예측 등에 자주 사용되는 시계열 불량 감지와 사기 탐지 등에 사용하는 이상치 감지 기법이 있다.
- 여러 분석 기법들 중 선택하는 기준은 목적과 해석 가능 여부에 따라 달라진다.