1. 변수 선택
통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 좋다. 하지만 분석모형을 구성하고 사용하는 데 지속적으로 필요 이상의 많은 데이터를 요구할 수 있다.
2. 회귀분석의 사례
예를 들어, 회귀모형에 의한 분석의 경우 최종 결과를 도출해 내기 위해서 사용된 독립 변수가 m개이고 이를 통해서 얻어진 설명력이 R2 = 89% 라고 했을 때, m보다 작은 n개만을 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가한다.
※ 회귀(regression) : 변수 x와 y의 관계를 함수식으로 설명하는 통계적 방법
1) 변수별 모형의 분류
① 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형으로 정의한다.
② 축소 모형(RM : Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형이다.
③ 영 모형(NM : Null Model) : 독립변수가 하나도 없는 모형을 의미한다.
2) 변수의 선택 방법
① 전진 선택법(Forward Selection)
- 영 모형에서 기작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것을 말한다.
- 한번 추가된 변수는 제거하지 않는 것이 원칙이다.
② 후진 선택법(Backward Selection)
- 전체모델에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외시킨다.
- 한번 제거된 변수는 추가하지 않는다.
③ 단계적 선택법(Stepwise Selection)
- 전진 선택법과 후진 선택법의 보완방법이다.
- 전진 선택법을 통해 가장 유의한 변수를 모형에 포함 후 나머지변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거한다.
- 제거한 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복한다.
※ 변수 선택에 의해 구성된 축소모형이 데이터분석에 사용하는 최적의 모형후보로 선택될 수 있음을 기억한다.
네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다.
정확한 내용은 아래 링크를 참고하세요.
https://cafe.naver.com/yjbooks/8399