전체 글 141

[4과목] 분석모형 평가 - 분석모형 진단, 교차검증, 적합도 검정

1. 분석모형 진단 (1) 정규성 가정 정규성 가정은 통계적 검정, 회귀분석 등 분석을 진행하기 전에 데이터가 정규분포를 따르는지를 검정하는 것으로 데이터 자체의 정규성을 확인하는 과정이다. ① 중심극한정리(Central Limit Theorem) - 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론으로 이때 표본분포의 평균은 모집단의 모평균과 동일하며 표준편차는 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것과 같다. ② 정규성 검정 종류 - Shaprio-Wilks Test : 표본수(n)가 2000개 미만인 데이터셋에 적합하다. - Kolmogorove-Smirnov Test : 표본수(n)가 2000개 초과인 데이터셋에 적합하다. -..

[4과목] 분석모형 평가 - 평가지표

1. 평가지표 (1) 지도학습 - 분류모델 평가 지표 분석모형의 답과 실제 답과의 관계 오차행렬을 통해 평가한다. * True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답) * False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답) * False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답) * True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답) - 분류 모델을 평가하는 지표는 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score 등이 있다. 사전에 오차행렬이 준비되어야 한다. ① 오차행렬(Confusion Matrix) : 훈련을..

[3과목] 고급 분석기법 - 비모수 통계

1. 비모수 통계 (1) 모수의 정의 - 통계학에서 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수를 말한다. 일반적으로는 θ라고 표현되며, 다른 표시는 각각 독특한 뜻을 지닌다. - 함수의 수치를 정해진 변역에서 구하거나 시스템의 반응을 결정할 때는 독립변수는 변하지만 매개변수는 일정하다.- 다른 매개변수를 이용해 함수의 다른 수치를 다시 구하거나 시스템의 다른 반응을 볼 수도 있다. ※ 비모수 통계 및 모수통계에 대한 개념을 이해하면서 비모수통계적 방법론에는 어떤 것들이 있는 학습할 수 있도록 한다. (2) 비모수 통계의 개념 - 비모수 통계(Non-Parametric Statistics)는 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 ..

[3과목] 고급 분석기법 - 앙상블 분석

1. 앙상블 분석 (1) 앙상블 분석의 정의 앙상블(Ensemble) 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념이다. ① 약학습기(약분류기, Weak Learner) : 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하(50% 이하)인 학습 규칙을 말한다. 가능성 있는 다양한 복수의 학습 규칙이다. ② 강학습기(강분류기, Strong Learner) Weak Learner로부터 만들어내는 강력한 학습 규칙을 의미한다. (2) 앙상블 분석의 이해 동일한 학습 알고리즘을 이용할 때, 앙상블 분석이 한 개의 Single Learner에 의한 분석보다는 더 나은 분석성능을 이끌어낼 수 있다. 앙상블 기법은 다양한 Weak Learner를 통해 Strong Learner를 만들어..

[3과목] 고급 분석기법 - 비정형 데이터 분석

1. 비정형 데이터 비정형 데이터(Unstructured-Data)는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어 있다. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적인 비정형 데이터이다. - 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분할 수도 있지만, 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어렵다. ① 데이터 수집의 난이도 ② 데이터 처리의 아키텍쳐 ③ 데이터의 잠재적 가치 2. 비정형 데이터 분석 ① 비정형 데이터의 분석의 기본 원리 - 비정형 데이터의 내용 파악과 비정형 데이터 속 패턴(pattern) 발견을 위해 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 ..

[3과목] 고급 분석기법 - 딥러닝

1. 딥러닝 분석 (1) 딥러닝 분석의 개념 ① 인공신경망(ANN : Artificial Neural Network) 인공신경망은 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계중 특히 뇌)을 통해 영감을 얻은 통계학적 학습 알고리즘이다. - 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. - 인공신경망의 문제점 * 계산속도의 저하 * 초기치의 의존성 * 과적합 문제 ② 딥러닝(Deep Learning) 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계 학습 알고리즘의 집..

[3과목] 고급 분석기법 - 베이즈 기법

1. 베이즈 기법 (1) 베이즈 추론 베이즈 추론(베이지안 추론, Bayesian Inference)은 통계적 추론의 한 방법으로, 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법이다. 베이즈 추론은 베이즈 확률론을 기반으로 하며, 이는 추론하는 대상을 확률변수로 보아 그 변수의 확률변수를 추정하는 것을 의미한다. ① 확률론적 의미해석(조건부 확률) ② 베이즈 기법의 개념 - 베이즈 확률에는 두 가지 시점이 있는데 그 하나는 객관적 관점으로 베이즈 통계의 법칙은 이성적, 보편적으로 증명될 수 있으며 논리의 확장으로 설명될 수 있다는 것이다. 한편 주관주의 확률 이론의 관점으로 보면 지식의 상태는 개인적인 믿음의 정도(Degree of Belief)로 측정할 수 있다...

[3과목] 고급 분석기법 - 시계열분석

1. 시계열 분석 시계열 자료(data)를 분석하고 여러 변수들 간의 인과관계를 분석하는 방법론이다. 경제학에서도 매우 많이 쓰이는 방법론으로 계량경제학이나 금융, 거시경제분석에 사용한다. 시계열자료의 구분, 정상성 구분에 다른 분석모형 그리고 회귀분석에 대해서 이해할 수 있어야 한다. (1) 시계열 자료 시간의 흐름에 따라서 관측되는 자료(데이터)를 지칭한다. 시계열 자료를 이용하여 미래에 대해 예측 또는 제어하는 것이 주 이용목적이다. ① 이산시계열 : 관측값들이 이산적인 형태로 분리되어 존재한다. ② 연속시계열 : 관측값들이 연속적으로 연결된 형태의 자료를 말한다. ③ 시차 (Time Lag) : 한 관측시점과 다른 관측시점 사이의 간격이다. (2) 시계열자료의 성분 ① 불규칙 성분(Irregula..

[3과목] 고급 분석기법 - 다변량분석

1. 다변량분석(Multivariate Analysis) 다변량분석은 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법이라 볼 수 있다. 따라서 많은 다변량분석 기법은 일변량분석과 이변량분석의 확장형태라 할 수 있다. - 통계적으로는 종속변수의 관계성을 고려해서 여러 개의 단변량분석을 동시에 수행하는 것을 의미한다. (1) 용어 ① 종속 기법(Dependence Methods) : 변수들을 종속변수와 독립변수로 구분하여 독립변수들이 종속변수에 미치는 영향력을 분석하는 기법이다. ② 상호의존적 기법(Interdependence Methods) : 분석할 변수들을 종속변수와 독립변수로 구분하지 않고 전체를 대상으로 하는 분석이다. ③ 명목 척도(Nominal Scale..

[3과목] 고급 분석기법 - 범주형 자료분석

1. 범주형 자료분석 (1) 범주형 자료분석의 통계적 정의 - 범주형 자료분석은 변수들이 이산형 변수일 때 주로 사용하는 분석이다. 예를 들어, 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부를 판단하고자 하는 경우, 각 집단 간의 비율차이가 있는지 확인하기 위한 경우 등에 주로 사용한다. - 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성하게 된다. 만약 두 변수의 범주가 교차되어 있다면 이 표를 분할표(Contingency Table)라고 부른다. - 사실 범주형 변수를 요약하는 방법은 이러한 분할표 말고는 적당한 것이 없다. 분할표를 통해서 범주별 비교를 하고 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정을 수행한다. - 분할표는 쉽지만 중요한 개념..