IT/빅데이터분석기사

[3과목] 고급 분석기법 - 범주형 자료분석

김비서 2021. 9. 12. 01:15
728x90

1. 범주형 자료분석

(1) 범주형 자료분석의 통계적 정의

- 범주형 자료분석은 변수들이 이산형 변수일 때 주로 사용하는 분석이다. 예를 들어, 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부를 판단하고자 하는 경우, 각 집단 간의 비율차이가 있는지 확인하기 위한 경우 등에 주로 사용한다. 

- 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성하게 된다. 만약 두 변수의 범주가 교차되어 있다면 이 표를 분할표(Contingency Table)라고 부른다.

- 사실 범주형 변수를 요약하는 방법은 이러한 분할표 말고는 적당한 것이 없다. 분할표를 통해서 범주별 비교를 하고 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정을 수행한다.

- 분할표는 쉽지만 중요한 개념이며 로지스틱 회귀모형 등으로 대표되는 일반화 선형모형을 해석하는 과정에서도 사용한다.

 

 

(2) 자료의 분석

① 자료의 형태에 따른 범주형 자료 분석 방법

[출처 : 이기적스터디카페]

 

② 분할표

범주형데이터가 각 변수에 따라서 통계표 형태로 정리되어 쓴 것을 분할표라고 한다.

- 차원(Dimensionality) : 분할표의 구성에 관계된 변수의 수로 정의한다.

- 수준(Level) : 범주형 변수가 가지는 범주의 수이다.

 

③ 빈도분석

빈도분석은 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰인다. 그리고 데이터에 질적자료와 양적자료가 많을 때 질적자료를 대상으로 오류가 있는지 확인할 수 있다.

 

④ 카이제곱검정(Chi-Square Test)

두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법을 카이제곱 검정이라 한다. 

 

⑤ 로지스틱 회귀분석

분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느 집단으로 분류될 수 있는지를 분석할 때 사용한다.

 

⑥ T 검정

독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정방법으로 두 집단간의 평균 비교 등에 사용된다.

 

⑦ 분산분석

독립변수가 범주형(두 개 이상 집단) 이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용된다.

 

 

반응형