전체 글 141

[3과목] 분석기법 - 군집분석

1. 군집분석 비지도학습의 일종으로 주어진 각 개체들의 유사성을 분석해서 높은 대상끼리 일반화된 그룹으로 분류하는 기법이다. 규칙 내지 결과 없이 주어진 데이터들을 가장 잘 설명하는 그룹 또는 클러스터를 찾을 수 있는 방법으로 복잡하고 다양한 대상들을 이해하기 쉽게 구분한다. 군집분석 이상치에 민감하여 신뢰성과 타당성 검증이 어려우나 사전 정보 없이 특정 패턴, 속성을 파악하기 위한 효과적인 그룹 분류 기법으로 통용된다. 유통, 서비스 등 업종 분야에서 VIP 핵심 고객들을 군집화하거나 마케팅 조사에서 실제 앱 이용자들을 더 잘 이해하기 위해 이용자 정보와 이용 패턴 데이터를 수집하여 고객 세그멘테이션을 군집 분석 알고리즘을 통해 진행할 수 있다. 유사한 성향을 보이는 프랜차이즈 매장끼리 군집화하여 차별..

[3과목] 서포트벡터머신(SVM), 연관성분석

1. 서포트벡터머신(SVM) 서포트벡터머신(SVM : Support Vetor Machine)은 지도학습 기법으로 고차원 또는 무한 차원의 공간에서 초평면(의 집합)을 찾아 이를 이용하여 분류와 회귀를 수행한다. 서포트벡터머신 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만드는 기법으로 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다. 비선형 분류에서도 사용될 수 있는데 비선형 분류를 하기 위해서 주어진 데이터를 고차원 특징 공간으로 사상하는 작업이 필요하며 이를 효율적으로 하기 위해 커널 트릭을 사용하..

[3과목] 인공신경망(ANN : Artificial Neural Network)

1. 인공신경망(ANN : Artificial Neural Network) (1) 인공신경망의 특징 - 인공신경망은 인간의 두뇌 신경세포인 뉴런을 기본으로 한 기계학습기법으로 하나의 뉴런이 다른 뉴런들과 연결되어 신호를 전달, 처리하는 구조를 본떴다. - 입력 데이터가 들어가면서 신호의 강도에 따라 가중치 처리되고 활성화 함수를 통해 출력이 계산되는데 학습을 거쳐 원하는 결과가 나오게끔 가중치가 조정된다는 점이 주요 특징이다. - 신경망 모형은 높은 복잡성으로 입력 자료의 선택에 민감하다. - 범주형 변수 일정 빈도 이상의 값으로 비슷하고 범주가 일정한 구간이어야 한다. 연속형 변수 입력변수 값들의 범위가 큰 차이가 없어 표준화가 가능한 경우에 보다 적합하다. 범주형 변수 일정 빈도 이상의 값으로 비슷하..

[3과목] 의사결정나무

1. 의사결정나무 의사결정 규칙을 나무(tree) 모양으로 조합하여 목표 변수에 대한 분류 또는 예측을 수행하는 기법이다. 의사결정나무 타이타닉 호 탑승객의 생존 여부를 결정하기 위해 남자인지 여자인지, 나이는 9.5세 아래인지 아닌지, 함께 탑승한 형제/배우자 수는 2.5명 이상인지 아닌지 구분으로 3가지 단계들을 거치게 되면 일종의 학습이 되고 여러 승객의 조건들을 해당 3가지 체크리스트를 기반으로 따라가면서 생존 여부에 대한 예측을 할 수 있다. 이와 같이 예측 가능한 규칙들의 조합을 만들어가는 형태가 나무 모양과 같다고 하여 의사결정나무라고 일컫는다. (1) 의사결정나무의 구성 ① 뿌리마디(Root Node) : 나무가 시작되는 마디 ② 중간마디(Internal Node) : 뿌리마디에서 나온 각..

[3과목] 회귀분석

1. 회귀분석 특정 변수가 다른 변수에 어떤 영향을 미치는지, 즉 원인과 결과의 연관을 분석하는 방법으로 주어진 변수들에 대해 변수 사이의 모형을 구하여 적합도를 측정하는 기법이다. 회귀분석 TV 시청을 많이 할수록 운동하는 시간이 적어지는 가설을 입증하려 한다면, TV 시청 시간은 운동 시간에 영향을 미치는 원인 즉 독립변수가 되고, 운동하는 시간은 TV 시청 시간에 따라 영향을 받아 값이 달라지는 결과변수라고 할 수 있다. 이들의 관계를 하나의 함수화 시켜 운동시간을 예측하고자 할 때 회귀분석을 적용할 수 있게 된다. - 독립변수 : 입력값 또는 원인을 설명하는 변수이다. - 종속변수 : 결과값 또는 효과를 설명하는 변수이다. - 회귀선 : 독립변수가 주어질 때의 종속변수의 기댓값이다. - 최소자승법..

[3과목] 분석기법 적용 - 분석기법

1. 분석기법 개요 (1) 학습 유형에 따른 데이터 분석 모델 ① 지도학습(Supervised Learning) - 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습한다. - 세부적으로 지도학습 모델은 크게 분류와 예측 모델로 구분되며 각 부문별 활용되는 데이터분석 기법은 다음과 같이 나뉜다. ※ 분류와 예측 모델을 구분할 줄 알아야 한다. ② 비지도학습(Unsupervised Learning) : 정답없이 컴퓨터 스스로 입력데이터 패턴을 구분하도록 학습한다. ③ 준지도학습(Semi-supervised Learning) : 효율적 학습을 위해 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는..

[3과목] 분석 환경 구축 - 데이터 분할

1. 데이터 분할 (1) 데이터 분할 정의 분석용 데이터로 모형을 구축하여 평가 및 검증하기 위해서 전체 데이터를 학습 데이터, 평가 데이터, 검증용 테스트 데이터로 분할한다. ① 학습(training) 데이터 : 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터이다. ② 평가(validation) 데이터 : 추정한 분석모델이 과대/과소적합인지 모형의 성능을 평가하기 위한 데이터이다. ③ 검증용 데이터(test) 데이터 : 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터이다. - 보통 학습과 검증을 위해서는 7:3 또는 8:2 비율로 진행되며 전체적인 훈련, 평가, 검증용 테스트 데이터 비율은 일반적으로 4:3:3 또는 5:3:2 로 정한다. (2) 과대적합(Overfitti..

[3과목] 분석 환경 구축 - 분석 도구 선정

1. R : 통계 및 그래프 작업을 위한 인터 프리터 프로그래밍 언어 ※ 인터프리터 : 프로그래밍 언어의 소스 코드를 바로 실행하는 환경이다. 원시 코드를 기계어로 번역하는 컴파일러와 대비된다. 1993년 뉴질랜드 오클랜드 대학교 통계학과 교수들이 통계분석과 자료의 시각화를 위해 개발한 오픈 분석용 프로그래밍 언어로 다음과 같은 특징을 가지고 있다. ① 객체지향 언어 : 일반 데이터, 함수, 차트 등 모든 데이터가 객체 형태로 관리되어 효율적인 조작과 저장방법을 제공한다. ② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속으로 처리되고 재사용 가능하다. ③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터프레임, 리스트 등 다양한 자료구조와 연산기능을 제공한다. ④ 최신패키지 제공 : 오픈소스 커..

[3과목] 분석 모형 설계 - 분석 절차 수립

1. 분석 모형 선정 (1) 분석 모형 선정 필요성 - 분석 기법 또는 분석 알고리즘을 적용하기 전에 분석 모형에 대한 선정이 필요하다. - 분석이 필요한 데이터 속성을 세부적으로 파악, 처리한 뒤에 분석 모형을 선정, 적합한 분석 기법을 선택하게 된다. (2) 분석 모형 선정 프로세스 - 분석 모형 선정은 다음 순서와 같은 분석 이전의 단계들을 수행하면서 선정을 진행한다. ① 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/ 조건 정의 ② 데이터 수집, 정리 및 도식화 ③ 데이터 전처리(데이터 정제, 종속/독립변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등) ④ 분석 모형 선정 2. 분석 모형 정의 (1) 분석 모형 정의와 종류 ① 예측 분석 모형 : 적조 예측, 날씨 ..

[2과목] 추론통계 - 가설검정

1. 가설검정 모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법이다. 모집단의 특성에 대한 주장은 옳을 수도 있고 틀릴 수도 있다. 객관적이고 과학적인 판단을 위해서는 표본을 선택하여 그 표본을 이용한 결과를 이용하여 가설을 검정해야 한다. * 검정통계량(Test Statistic) 연구자에 의해 설정된 가설은 표본을 근거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량을 검정통계량이라 정의한다. * 가설검정(Testing Hypothesis) 검정통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정을 가설검정이라 하며 일반적으로 몇 단계의 절차를 거쳐 검정이 수행된다. (1) 가..