빅데이터분석기사 58

[4과목] 분석모형 평가 - 분석모형 진단, 교차검증, 적합도 검정

1. 분석모형 진단 (1) 정규성 가정 정규성 가정은 통계적 검정, 회귀분석 등 분석을 진행하기 전에 데이터가 정규분포를 따르는지를 검정하는 것으로 데이터 자체의 정규성을 확인하는 과정이다. ① 중심극한정리(Central Limit Theorem) - 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론으로 이때 표본분포의 평균은 모집단의 모평균과 동일하며 표준편차는 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것과 같다. ② 정규성 검정 종류 - Shaprio-Wilks Test : 표본수(n)가 2000개 미만인 데이터셋에 적합하다. - Kolmogorove-Smirnov Test : 표본수(n)가 2000개 초과인 데이터셋에 적합하다. -..

[4과목] 분석모형 평가 - 평가지표

1. 평가지표 (1) 지도학습 - 분류모델 평가 지표 분석모형의 답과 실제 답과의 관계 오차행렬을 통해 평가한다. * True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답) * False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답) * False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답) * True Negative(TN) : 실제 False인 정답을 False라고 예측 (정답) - 분류 모델을 평가하는 지표는 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score 등이 있다. 사전에 오차행렬이 준비되어야 한다. ① 오차행렬(Confusion Matrix) : 훈련을..

[3과목] 고급 분석기법 - 비모수 통계

1. 비모수 통계 (1) 모수의 정의 - 통계학에서 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수를 말한다. 일반적으로는 θ라고 표현되며, 다른 표시는 각각 독특한 뜻을 지닌다. - 함수의 수치를 정해진 변역에서 구하거나 시스템의 반응을 결정할 때는 독립변수는 변하지만 매개변수는 일정하다.- 다른 매개변수를 이용해 함수의 다른 수치를 다시 구하거나 시스템의 다른 반응을 볼 수도 있다. ※ 비모수 통계 및 모수통계에 대한 개념을 이해하면서 비모수통계적 방법론에는 어떤 것들이 있는 학습할 수 있도록 한다. (2) 비모수 통계의 개념 - 비모수 통계(Non-Parametric Statistics)는 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 ..

[3과목] 고급 분석기법 - 앙상블 분석

1. 앙상블 분석 (1) 앙상블 분석의 정의 앙상블(Ensemble) 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념이다. ① 약학습기(약분류기, Weak Learner) : 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하(50% 이하)인 학습 규칙을 말한다. 가능성 있는 다양한 복수의 학습 규칙이다. ② 강학습기(강분류기, Strong Learner) Weak Learner로부터 만들어내는 강력한 학습 규칙을 의미한다. (2) 앙상블 분석의 이해 동일한 학습 알고리즘을 이용할 때, 앙상블 분석이 한 개의 Single Learner에 의한 분석보다는 더 나은 분석성능을 이끌어낼 수 있다. 앙상블 기법은 다양한 Weak Learner를 통해 Strong Learner를 만들어..

[3과목] 고급 분석기법 - 비정형 데이터 분석

1. 비정형 데이터 비정형 데이터(Unstructured-Data)는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어 있다. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적인 비정형 데이터이다. - 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분할 수도 있지만, 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어렵다. ① 데이터 수집의 난이도 ② 데이터 처리의 아키텍쳐 ③ 데이터의 잠재적 가치 2. 비정형 데이터 분석 ① 비정형 데이터의 분석의 기본 원리 - 비정형 데이터의 내용 파악과 비정형 데이터 속 패턴(pattern) 발견을 위해 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 ..

[3과목] 고급 분석기법 - 딥러닝

1. 딥러닝 분석 (1) 딥러닝 분석의 개념 ① 인공신경망(ANN : Artificial Neural Network) 인공신경망은 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계중 특히 뇌)을 통해 영감을 얻은 통계학적 학습 알고리즘이다. - 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. - 인공신경망의 문제점 * 계산속도의 저하 * 초기치의 의존성 * 과적합 문제 ② 딥러닝(Deep Learning) 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계 학습 알고리즘의 집..

[3과목] 고급 분석기법 - 베이즈 기법

1. 베이즈 기법 (1) 베이즈 추론 베이즈 추론(베이지안 추론, Bayesian Inference)은 통계적 추론의 한 방법으로, 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법이다. 베이즈 추론은 베이즈 확률론을 기반으로 하며, 이는 추론하는 대상을 확률변수로 보아 그 변수의 확률변수를 추정하는 것을 의미한다. ① 확률론적 의미해석(조건부 확률) ② 베이즈 기법의 개념 - 베이즈 확률에는 두 가지 시점이 있는데 그 하나는 객관적 관점으로 베이즈 통계의 법칙은 이성적, 보편적으로 증명될 수 있으며 논리의 확장으로 설명될 수 있다는 것이다. 한편 주관주의 확률 이론의 관점으로 보면 지식의 상태는 개인적인 믿음의 정도(Degree of Belief)로 측정할 수 있다...

[3과목] 고급 분석기법 - 다변량분석

1. 다변량분석(Multivariate Analysis) 다변량분석은 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법이라 볼 수 있다. 따라서 많은 다변량분석 기법은 일변량분석과 이변량분석의 확장형태라 할 수 있다. - 통계적으로는 종속변수의 관계성을 고려해서 여러 개의 단변량분석을 동시에 수행하는 것을 의미한다. (1) 용어 ① 종속 기법(Dependence Methods) : 변수들을 종속변수와 독립변수로 구분하여 독립변수들이 종속변수에 미치는 영향력을 분석하는 기법이다. ② 상호의존적 기법(Interdependence Methods) : 분석할 변수들을 종속변수와 독립변수로 구분하지 않고 전체를 대상으로 하는 분석이다. ③ 명목 척도(Nominal Scale..

[3과목] 고급 분석기법 - 범주형 자료분석

1. 범주형 자료분석 (1) 범주형 자료분석의 통계적 정의 - 범주형 자료분석은 변수들이 이산형 변수일 때 주로 사용하는 분석이다. 예를 들어, 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부를 판단하고자 하는 경우, 각 집단 간의 비율차이가 있는지 확인하기 위한 경우 등에 주로 사용한다. - 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성하게 된다. 만약 두 변수의 범주가 교차되어 있다면 이 표를 분할표(Contingency Table)라고 부른다. - 사실 범주형 변수를 요약하는 방법은 이러한 분할표 말고는 적당한 것이 없다. 분할표를 통해서 범주별 비교를 하고 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정을 수행한다. - 분할표는 쉽지만 중요한 개념..

[3과목] 분석기법 - 군집분석

1. 군집분석 비지도학습의 일종으로 주어진 각 개체들의 유사성을 분석해서 높은 대상끼리 일반화된 그룹으로 분류하는 기법이다. 규칙 내지 결과 없이 주어진 데이터들을 가장 잘 설명하는 그룹 또는 클러스터를 찾을 수 있는 방법으로 복잡하고 다양한 대상들을 이해하기 쉽게 구분한다. 군집분석 이상치에 민감하여 신뢰성과 타당성 검증이 어려우나 사전 정보 없이 특정 패턴, 속성을 파악하기 위한 효과적인 그룹 분류 기법으로 통용된다. 유통, 서비스 등 업종 분야에서 VIP 핵심 고객들을 군집화하거나 마케팅 조사에서 실제 앱 이용자들을 더 잘 이해하기 위해 이용자 정보와 이용 패턴 데이터를 수집하여 고객 세그멘테이션을 군집 분석 알고리즘을 통해 진행할 수 있다. 유사한 성향을 보이는 프랜차이즈 매장끼리 군집화하여 차별..