1. 범주형 자료분석
(1) 범주형 자료분석의 통계적 정의
- 범주형 자료분석은 변수들이 이산형 변수일 때 주로 사용하는 분석이다. 예를 들어, 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부를 판단하고자 하는 경우, 각 집단 간의 비율차이가 있는지 확인하기 위한 경우 등에 주로 사용한다.
- 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성하게 된다. 만약 두 변수의 범주가 교차되어 있다면 이 표를 분할표(Contingency Table)라고 부른다.
- 사실 범주형 변수를 요약하는 방법은 이러한 분할표 말고는 적당한 것이 없다. 분할표를 통해서 범주별 비교를 하고 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정을 수행한다.
- 분할표는 쉽지만 중요한 개념이며 로지스틱 회귀모형 등으로 대표되는 일반화 선형모형을 해석하는 과정에서도 사용한다.
(2) 자료의 분석
① 자료의 형태에 따른 범주형 자료 분석 방법
② 분할표
범주형데이터가 각 변수에 따라서 통계표 형태로 정리되어 쓴 것을 분할표라고 한다.
- 차원(Dimensionality) : 분할표의 구성에 관계된 변수의 수로 정의한다.
- 수준(Level) : 범주형 변수가 가지는 범주의 수이다.
③ 빈도분석
빈도분석은 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰인다. 그리고 데이터에 질적자료와 양적자료가 많을 때 질적자료를 대상으로 오류가 있는지 확인할 수 있다.
④ 카이제곱검정(Chi-Square Test)
두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법을 카이제곱 검정이라 한다.
⑤ 로지스틱 회귀분석
분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느 집단으로 분류될 수 있는지를 분석할 때 사용한다.
⑥ T 검정
독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정방법으로 두 집단간의 평균 비교 등에 사용된다.
⑦ 분산분석
독립변수가 범주형(두 개 이상 집단) 이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용된다.