IT/빅데이터분석기사

[2과목] 통계기법의 이해 - 확률분포3 (이산확률분포, 연속확률분포, 표본분포)

김비서 2021. 9. 5. 17:06
728x90

1. 이산확률분포의 종류

(1) 베르누이분포(Bernoulli Distribution)

결과가 성공 아니면 실패, 두 가지로 귀결되어 나오는 이산확률분포이다.

※ 베르누이 시행 : 결과가 두 개인 시행을 독립적으로 반복하는 것

 

(2) 이항분포(Binomial Distribution)

베르누이시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포이다.

 

(3) 다항분포(Multinomial Distribution)

여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포이다.

 

(4) 포아송분포(Poisson Distribution)

단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포이다.

 

(5) 기하분포(Geometric Distribution)

베르누이시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포의 한 종류이다.

 

(6) 초기하분포(Hypergeometric Distribution)

비복원 추출에서 N개 중에 n개를 추출했을 때, 원하는 것 k개가 뽑힐 확률을 나타내는 이산확률분포이다.

 

 

2. 연속확률분포의 종류

(1) 정규분포(Normal Distribution)

정규분포는 19세기의 위대한 수학자 Carl Friedrich Gauss에 의해 물리학과 천문학 등에 폭넓게 응용되기도 하였는데 이러한 연유로 정규분포를 가우스분포(Gaussian Distribution)라 부르기도 한다.

 

정규분포는 표본을 통한 통계적 추정 및 가설검정이론의 핵심이 되며, 실제로 우리가 사회적, 자연적 현상에서 접하는 여러 자료들의 분포가 정규분포를 띠게 된다.

 

※ 정규분포의 특징

- 정규분포는 평균을 중심으로 대칭이며 종모양(bell-shaped)인 확률밀도함수의 그래프를 띤다.

- 정규분포의 모양과 위치는 평균과 표준편차에 의해 완전히 결정된다.

- 분포의 평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X축 사이의 전체 면적은 1이다.

- 정규분포를 가지는 확률변수, 즉 정규확률변수(Normal Random Variable)는 평균 주위의 값을 많이 취하며 평균으로부터 좌우로 표준편차의 3배 이상 떨어진 값은 거의 취하지 않는다.

- 정규분포곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 -∞ < X < +∞ 이다.

 

(2) 표준정규분포(Standard Normal Distribution)

모든 정규확률변수는 적당한 변환을 취하여 수많은 가능한 정규분포에 모두 적용할 수 있는 표준정규분포를 이용하여 분포의 모양을 통일한 다음, 확률을 계산하는 방법을 사용하면 편리하다.

- 표준 정규분포는 평균=0, 표준편차=1 이 되도록 한 정규분포이다.

- 정규화 : 어떤 관측치 X의 값이 그 분포의 평균에서 표준편차 대비 얼마나 떨어져 있는지를 표준화된 정규분포 변환식에 의해서 알 수 있다.

- 표준정규분포표에 의해서 해당 확률변수의 확률 값 계산이 가능하다.

 

(3) 카이제곱분포(Chi-Squared Distribution)

k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포로 정의한다.

- 자유도 : k를 지칭하는 것으로 카이제곱분포의 매개변수가 된다. 

- 기댓값 k

- 분산 2k

 

(4) 스튜던트 t 분포(Student t Distribution)

영국의 윌리엄 고셋이 Student라는 필명으로 발표하였으며 짧게 t분포라고 부른다.

정규분포의 평균 측정시 주로 사용하는 분포이다. 분포의 모양은 Z-분포와 유사하다. 종 모양으로서 t=0에 대하여 대칭을 이루는데 t-곡선의 모양을 결정하는 것은 자유도이다.

※ 자유도 : 자료집단의 변수 중에서 자유롭게 선택될 수 있는 변수의 수를 말한다.

 

(5) F분포(F Distribution)

F분포는 F검정이나 분산분석 등에 주로 사용되는 분포함수이다.

 

(6) 기타

지수분포, 감마분포, 파렛트분포 등이 있다.

 

 

3. 표본분포(Sampling Distribution)

표본분포는 크기 n의 확률표본(Random Sample)의 확률변수(Random Variable)의 분포이다. 

※ 확률표본(임의표본) : 모집단에서 동등한 확률로 추출된 개체들의 집합

 

(1) 모집단 분포와 표본분포

① 모집단의 모수(parameter)

- 모집단의 평균, 모집단의 표준편차

- 모집단의 특성을 나타내는 특성값은 모수라고 정의한다.

 

② 표본의 통계량

- 표본집단의 평균, 표본집단의 표준편차

표본집단의 특성을 나타내는 특성값은 통계량이라 정의한다. 

 

(2) 표본평균의 표본분포 

모집단으로부터 표본을 추출하였을 때 얻을 수 있는 모든 표본평균값을 확률변수로 하는 확률분포이다.

 

(3) 중심극한정리(Central Limit Theorem)

동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.

 

① 린데베르그 - 레비(Lindeberg-Levy) 중심극한 정리

 

② 중심극한정리의 의미

- 모집단의 분포가 무엇이든 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포가 정규분포를 이룬다는 의미이다.

- 즉 정규분포는 다시 표준정규분포로 변환이 가능하므로 우리가 알고 있는 표준정규분포의 각종 결과를 이용하여 추정(판단)을 할 수 있다. 

 

(4) 표본비율(Sample Proportion)

크기가 N인 모집단으로부터 표본크기가 n인 표본을 추출시 이 표본을 구성하는 n개의 개체들을 통해 조사하고자 하는 결과가 성공 또는 실패로 구분될 때, 표본을 구성하는 n개의 개체 중에서 성공으로 나타나는 개체 수의 비율을 표본비율이라고 한다.

※ 모비율 : 모집단에서 성공으로 나타나는 개체 수의 비율을 모비율이라고 하며 모집단의 특성을 나타낸다.

 

(5) 표본비율의 표본분포

표본으로 추출될 가능성이 있는 모든 표본들에 대한 표본비율 값의 확률분포를 표본비율의 표본분포(Sampling Distribution of Sample Proportion)라 한다. 

모비율과 비슷한 표본비율을 가진 표본들이 추출될 가능성은 매우 클 것으로 기대되지만 반대의 경우는 희박해질 것이 예상될 때, 이렇게 표본으로 추출될 가능성이 있는 모든 표본비율의 값을 표본분포라 정의한다. 

반응형