전체 글 141

[2과목] 추론통계 - 구간추정

1. 구간추정 점추정은 모집단의 모수를 하나의 값으로 추정해 주는 것이다. 그러나 우리가 아무리 좋은 추정방법을 사용한다고 하더라도 표본을 택하고 이 표본으로부터 계산된 추정값이 목표값을 정확하게 추정한다고 주장할 수는 없다. ※ 구간추정(Interval Estimation) 또는 신뢰구간(Confidence Interval) 방법을 적용하면 이러한 부분을 해결할 수 있다. (1) 구간추정의 개념 ※ 구간추정 : 모집단의 특성을 담아내는 구간을 표본자료로부터 산출하는 방법 점추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것이다. 모수가 있을 것으로 예상되는 구간을 정해 그 구간에 실제모수가 있다고 예상되는 확률을 구하는 것이다. ① 일반화 구간의 크기..

[2과목] 추론통계 - 점추정

1. 통계적 추론(Statistical Inference) 통계적 추론 또는 통계적 추측은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭하며 통계학의 한 부분으로서 추론 통계학이라고 불린다. 이것은 기술 통계학(Descriptive Statistics)과 구별되는 개념이다. 통계적 추론은 추정(estimation)과 가설검정(testing hypothesis)으로 나눌 수 있다. ① 추정(estimation)은 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정이다. 표본평균 계산을 통해 모집단평균을 추측해 보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정을 나타낸다. ② 가설검정(testing hypothesis)은 모집단의 실제값이 얼마나 되는가 하는..

[2과목] 통계기법의 이해 - 확률분포3 (이산확률분포, 연속확률분포, 표본분포)

1. 이산확률분포의 종류 (1) 베르누이분포(Bernoulli Distribution) 결과가 성공 아니면 실패, 두 가지로 귀결되어 나오는 이산확률분포이다. ※ 베르누이 시행 : 결과가 두 개인 시행을 독립적으로 반복하는 것 (2) 이항분포(Binomial Distribution) 베르누이시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포이다. (3) 다항분포(Multinomial Distribution) 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포이다. (4) 포아송분포(Poisson Distribution) 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포이..

[2과목] 통계기법의 이해 - 확률분포2

1. 확률변수(Random Variable) 원래 숫자의 의미가 있는 자료나 원래 숫자의 의미가 없는 다른 형태의 자료에 수치를 부여한 것을 의미한다. 다시 말해, 사건의 시행의 결과(확률)를 하나의 수치로 대응시킬 대의 값(확률값)을 의미한다. ※ 확률변수의 종류 - 이산확률변수(Discrete Random Variable) : 확률변수가 취할 수 있는 값의 수가 유한한 변수이다. - 연속확률변수(Continuous Random Variable) : 확률변수가 취할 수 있는 값의 수가 무한한 변수이다. 2. 확률분포 확률분포는 수치로 대응된 확률변수의 개별 값들이 가지는 확률 값의 분포이다. 확률변수가 취할 수 있는 구체적인 값을 확률공간상의 확률값으로 할당한다. ① 이산확률분포(Discrete Pro..

[2과목] 통계기법의 이해 - 확률분포1

1. 확률분포 1) 확률의 개념 - 통계적 현상 : 불확정 현상을 반복하여 관찰하거나 혹은 집단 안에서 대량으로 관찰하여 그 고유의 법칙성을 찾아내는 것이 가능한 현상을 지칭한다. - 확률 실험 : 같은 조건 아래서 반복할 수 있다. 시행의 결과는 매번 우연적으로 변하므로 예측할 수 없으나, 가능한 모든 결과의 집합을 알 수 있다. 시행을 반복할 때 낱낱의 결과는 불규칙하게 나타나지만, 반복의 수를 늘리면 어떤 규칙성이 나타나는 특징을 가질 수 있다. ① 확률의 기본성질 ② 조건부 확률 : 사건 B가 일어났다는 조건 하에서 다른 사건 A가 일어날 확률을 말한다. ③ 결합 확률(확률의 곱셈) : 사건 A와 B가 동시에 발생하는 확률로 이를 확률의 곱셈 법칙이라고 한다. ※ 참고 - 독립 사건 : 두 사건 ..

[2과목] 통계기법의 이해 - 기술통계, 표본추출

1. 기술통계(Descriptive Statistics) 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법을 말한다. 분석을 위해서 단순히 데이터를 정리하는 행위 자체는 의미가 없다. 분석 전 데이터의 특성을 찾아내서 그 특성의 정량화를 통한 체계적 요약이 필요하다. ※ 기술통계의 종류 ① 데이터의 중심화 경향(Central Tendency) : 관찰 또는 수집된 데이터의 물리적 상대적 위치에 대한 정리 요약이다. ② 분산도 경향(Degree of Dispersion) : 데이터들이 흩어진 정도에 대한 기술 및 요약이다. ③ 비대칭도(Shape of Distribution, Skewness) : 자료의 분포가 대칭인지 치우쳐 있는지에 대한 기술 및 요약이다. 2. 표본추출 * 모집단(Populat..

[2과목] 빅데이터 탐색 - 비정형 데이터

1. 비정형 데이터 비정형 데이터(Unstructured Data, Unstructured Information, 비구조화 데이터, 비구조적 데이터)는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 말한다. ① 비정형 데이터의 특징 - 비정형 정보는 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터도 포함될 수 있다. - 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다. ② 비정형 데이터 관리 및 분석 의미 도출 - 정형 데이터는 데이터저장의 효율성 측면에서 사전에 정의된 규칙에 따라 저장, 관리되었으나 비정형의 경우는 규..

[2과목] 빅데이터 탐색 - 시공간데이터, 다변량 데이터

1. 시공간 데이터 기본적으로 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것을 지칭한다. ① 시간 데이터 기존 데이터는 어느 한 시점에 대한 스냅샷 정보이다. 그래서 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현을 정의한다. - 유효시간, 거래시간, 사용자 정의 시간, 스냅샷 데이터, 거래 시간 데이터, 유효 시간 데이터, 이원 시간 데이터 등 ② 공간 데이터 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 갖는 공간 데이터를 효율적으로 관리, 저장, 이용하는 데 초점을 맞춘다. - 비공간 타입, 래스터 공간 타입, 벡터 공간 타입, 기하학적 타입, 위상적 타입 등 ③ 공간 데이터 모델 - 관계형 모델 : 기존 정적 모델로 데이터의 ..

[2과목] 빅데이터 탐색 - 데이터분석, 상관분석, 기초통계, 분포형태

1. 데이터 탐색의 개요 1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis) 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 방법이다. 2) 탐색적 데이터 분석의 필요성 - 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있다. - 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 인지하지 못한 양상, 패턴을 발견할 수 있다. 3) 분석과정 및 절차 - 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인한다. - 데이터의 문제성을 확인한다. 즉, 데..

[2과목] 빅데이터 탐색 - 파생변수, 요약변수, 변수 변환

1. 파생변수(주관적 변수 개념) - 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미한다. - 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있다. - 특정상황에만 의미성 부여가 아닌 보편적이고 전 데이터구간에 대표성을 가지는 파생변수 생성을 위해서 노력해야 한다. - 세분화 고객행동예측, 캠페인반응예측 등에 활용할 수 있다. 2. 요약변수(단순 종합 개념) - 수집된 정보를 분석에 맞게 종합(aggregate)한 변수이다. - 데이터 마트에서 가장 기본적인 변수이다. - 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성이 높다. - 처리(단어의 빈도 초기행동변수 트렌드변수 등) 방법에 따라 결..