IT/빅데이터분석기사

[2과목] 추론통계 - 가설검정

김비서 2021. 9. 5. 20:30
728x90

1. 가설검정

모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법이다.

모집단의 특성에 대한 주장은 옳을 수도 있고 틀릴 수도 있다. 객관적이고 과학적인 판단을 위해서는 표본을 선택하여 그 표본을 이용한 결과를 이용하여 가설을 검정해야 한다.

 

* 검정통계량(Test Statistic)

연구자에 의해 설정된 가설은 표본을 근거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량을 검정통계량이라 정의한다.

 

* 가설검정(Testing Hypothesis)

검정통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정을 가설검정이라 하며 일반적으로 몇 단계의 절차를 거쳐 검정이 수행된다.

 

 

(1) 가설검정의 절차

① 가설의 설정

집단의 특성을 파악하기 위해서 표본을 이용한 의사결정은 오류의 가능성이 상존한다. 따라서 가설검정은 오류의 가능성을 사전에 관리하는 것이 중요하다. 오류의 허용확률을 정해놓고 그 기준에 따라 가설의 채택이나 기각을 결정한다.

 

* 귀무가설(Null Hypothesis, H0) : 현재 통념적으로 믿어지고 있는 모수에 대한 주장 또는 원래의 기준이 되는 가설

* 대립가설(Alternative Hypothesis, H1) : 연구자가 모수에 대해 새로운 통계적 입증을 이루어 내고자 하는 가설

 

표본을 통해 새롭게 주장하는 대립가설이 충분히 입증되지 못한다면, 연구자는 현재 믿어지고 있는 주장인 귀무가설을 그대로 받아들여야 할 것이다.

 

② 유의수준 a

표본에서 얻은 표본통계량이 기각역(rejection region)에 들어갈 확률

가설검정의 결과로 가설의 채택여부를 결정하게 될 때 우리는 두 가지의 오류를 생각할 수 있다.

* 제 1종 오류(TypeⅠError) : 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류(즉, 대립가설을 채택. 무죄인데 유죄라고 할 경우 - 더 중요함)

* 제 2종 오류(Type Ⅱ Error) : 귀무가설이 거짓인데 귀무가설을 채택할 오류, 또는 대립가설이 참일 때 귀무가설을 채택하도록 결정하는 오류(즉, 대립가설을 기각. 유죄인데 무죄라고 할 오류)

 

* 유의수준(Significance Level) : 제1종 오류를 범할 확률의 최대 허용한계를 유의수준 또는 위험률(risk ratio)이라고 하며 가설검정에서 판단의 기준으로 삼고 있다.

  - 가설검정의 유의수준 a는 귀무가설이 참인데도 이것을 기각하게 될 확률을 말한다. 일반적으로 1%, 5%, 10% 유의수준 등이 많이 이용된다.

  - 귀무가설이 맞는데 틀렸다고 결론 내렸을 확률(귀무가설을 잘못 기각할 확률), 즉 유의수준이 낮을수록 연구자는 귀무가설을 기각하고 자신의 주장에 확신을 가질 수 있다.

 

* 귀무가설의 기각여부는 p-value와 a의 크기에 달려 있다. 즉 p-value가 작을수록 그리고 a의 값이 클수록 귀무가설을 기각할 수 있다.

* 유의수준은 곧 1종 오류의 확률이다. 허용 유의수준 a값은 보통 0.05로 정해지지만 경우에 따라서는 0.01 혹은 0.1이 사용되기도 한다. a값이 0.05라는 것은 95% 신뢰수준을 의미한다.

 

 

(2) 검정통계량 및 표본분포의 결정

- 모수에 대한 정보는 표본에 함축되어 있다. 따라서 표본을 통하여 가설의 채택여부를 결정짓게 되는데, 이때 사용되는 표본 통계량을 검정통계량이라 한다.

- 또한 유의수준에 따른 귀무가설의 기각역을 결정하기 위해서, 귀무가설이 참일 때 검정통계량의 확률분포를 알아야만 하며, 알려져 있지 않을 때에는 통계학의 극한이론에 근거하여 근사적인 분포가 정해져야 한다.

 

 

(3) 기각역의 설정

표본에서 계산된 통계량이 가설로 설정한 모집단의 성격과 현저한 차이가 있을 경우에는 모집단에 대해 설정한 귀무가설을 기각하게 된다.

- 이때 귀무가설을 기각하게 되는 검정통계량의 범위를 기각역(Critical Region, Rejection Region)이라 하며, 기각역의 경계값을 임계치라 한다. 

※ 임계치(Critical Value) : 주어진 유의수준 a에서 귀무가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점이다. 

 

- 기각역은 검정통계량의 확률분포(귀무가설이 참일 때)와 유의수준 a와 대립가설의 형태(우측, 좌측 또는 양측)에 따라 단측 또는 양측 검정통계량이 설정된다.

* 양측 검정 : 가설검정에서 기각영역이 양쪽에 있는 것이다.

* 단측 검정 : 가설검정에서 기각영역이 어느 한쪽에만 있게 되는 경우이다.

 

 

(4) 검정통계량의 계산

① 의사결정

표본의 관측치로부터 계산된 검정통계량의 값이 기각역에 속하면 귀무가설을 기각하며(즉, 대립가설을 채택) 그렇지 않으면 귀무가설을 채택(즉, 대립가설을 기각) 한다.

 

② 통계량의 계산과 임계치의 비교

- 임계치가 결정되면 표본에서 얻은 통계량이 기각영역에 속하는지 채택 영역에 속하는지를 결정해야 한다.

- 임계치는 X, Z, t 값으로 나타낼 수 있다. 예를 들어 표본을 기초로 계산된 Z(t) 값을 계산된 Z(t) 값(computed Z(t)-value)이라고 부르며, Zc(tc)로 표 시한다.

- 계산한 Z(t) 값인 Zc(tc)와 임계치를 비교해서, Zc(tc)가 기각영역 안에 있으면 H0를 기각하고 채택 영역 안에 있으면 H0를 채택한다.

 

③ p-value

주어진 자료로서 귀무가설을 기각하려고 할 때 필요한 최소의 유의수준을 의미하며, 다른 용어로 유의성 확률(Significant Probability) 또는 관측된 유의수준(Observed Significance Level)이라고도 한다.

p-값이 계산되는 경우에는 유의수준 a와 비교하여 다음과 같은 결정을 할 수 있다. 

* p-value< α ∶ 귀무가설을 기각

* p-value> α ∶ 귀무가설을 채택

 

반응형