IT/빅데이터분석기사

[2과목] 빅데이터 탐색 - 분석변수처리

김비서 2021. 8. 22. 13:47
728x90

1. 변수 선택

통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 좋다. 하지만 분석모형을 구성하고 사용하는 데 지속적으로 필요 이상의 많은 데이터를 요구할 수 있다.

 

 

2. 회귀분석의 사례

예를 들어, 회귀모형에 의한 분석의 경우 최종 결과를 도출해 내기 위해서 사용된 독립 변수가 m개이고 이를 통해서 얻어진 설명력이 R2 = 89% 라고 했을 때, m보다 작은 n개만을 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가한다.

 

※ 회귀(regression) : 변수 x와 y의 관계를 함수식으로 설명하는 통계적 방법

 

 

1) 변수별 모형의 분류

① 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형으로 정의한다.

② 축소 모형(RM : Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형이다.

③ 영 모형(NM : Null Model) : 독립변수가 하나도 없는 모형을 의미한다.

 

2) 변수의 선택 방법

① 전진 선택법(Forward Selection)

  - 영 모형에서 기작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것을 말한다.

  - 한번 추가된 변수는 제거하지 않는 것이 원칙이다.

 

② 후진 선택법(Backward Selection)

  - 전체모델에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외시킨다.

  - 한번 제거된 변수는 추가하지 않는다.

 

③ 단계적 선택법(Stepwise Selection)

  - 전진 선택법과 후진 선택법의 보완방법이다.

  - 전진 선택법을 통해 가장 유의한 변수를 모형에 포함 후 나머지변수들에 대해 후진 선택법을 적용하여 새롭게 유의하지 않은 변수들을 제거한다.

  - 제거한 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복한다.

 

※ 변수 선택에 의해 구성된 축소모형이 데이터분석에 사용하는 최적의 모형후보로 선택될 수 있음을 기억한다.

 

 

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

 

https://cafe.naver.com/yjbooks/8399

 

[2과목] 빅데이터 탐색 - 분석변수처리

1. 변수 선택 통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 좋다. 하지만 분석모형을 구성하고 사용하는 데 지속적으로 필요 이상의 ...

cafe.naver.com

 

반응형