IT/빅데이터분석기사

[3과목] 회귀분석

김비서 2021. 9. 8. 23:42
728x90

1. 회귀분석

특정 변수가 다른 변수에 어떤 영향을 미치는지, 즉 원인과 결과의 연관을 분석하는 방법으로 주어진 변수들에 대해 변수 사이의 모형을 구하여 적합도를 측정하는 기법이다.

 

회귀분석 
TV 시청을 많이 할수록 운동하는 시간이 적어지는 가설을 입증하려 한다면,
TV 시청 시간은 운동 시간에 영향을 미치는 원인 즉 독립변수가 되고,
운동하는 시간은 TV 시청 시간에 따라 영향을 받아 값이 달라지는 결과변수라고 할 수 있다.
이들의 관계를 하나의 함수화 시켜 운동시간을 예측하고자 할 때 회귀분석을 적용할 수 있게 된다.

 

- 독립변수 : 입력값 또는 원인을 설명하는 변수이다.

- 종속변수 : 결과값 또는 효과를 설명하는 변수이다.

- 회귀선 : 독립변수가 주어질 때의 종속변수의 기댓값이다.

- 최소자승법 : 잔차(residual, 관측값 y와 예측값 y간 차이) 제곱의 합이 최소가 되게 하는 직선을 찾는 방법이다.

- 회귀선은 산점도에 위치한 각 점들의 정중아을 통과하는 직선을 추정하는 최소자승법을 이용하여 찾는다.

- 독립변수와 종속변수가 모두 등간척도 또는 비율척도로 구성되어 있어야 한다.

 

  기본가정 확인방법
선형성 독립변수와 종속변수가 선형적 회귀선 확인
잔차 정규성 잔차의 기댓값은 0이며 정규분포를 이룸 정규성 검정 확인
- 표준화된 잔차에 대한 정규성 검정 확인
잔차 독립성 잔차들은 서로 독립적 - 잔차에 대한 더빈 왓슨(Durbin Watson) 검정
- 오차항들 간에 자기상관이 없는지 확인
잔차 등분산성 잔차들의 분산이 일정 표준잔차와 표준예측지 도표
- 독립변수와 잔차에 대한 산점도로 시각적 확인
다중 공산성 다중 회귀 분석을 수행할 경우 3개 이상의 독립변수 간에 상관관계로 인한 문제가 없어야 함 독립변수 간 상관관계 확인
- 적절한 회귀분석을 위해 독립변수들 간 강한 상관관계가 나타나는 부분을 확인

 

(1) 선형 회귀분석

통계적 의미로 종속 변수 y와 한 개 이상의 독립변수 x와의 선형 상관성을 파악하는 회귀분석 기법이다.

 

① 단순선형 회귀분석 : 가장 단순한 분석으로 한 개의 종속변수 y와 한 개의 독립 변수 x로 두 개의 변수사이의 관계를 분석한다.

 

② 다중선형 회귀분석 : 하나의 독립변수가 아닌 여러 개의 독립변수를 사용한 회귀분석 기법으로 단순선형 회귀분석이 독립변수를 하나 가지고 있는 선형 회귀분석이라면 다중선형 회귀분석은 독립변수가 두 개 이상이고 종속변수가 y 하나인 선형 회귀분석이다.

 

 

(2) 로지스틱 회귀분석(Logistic Regression)

독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법으로 종속변수가 이항형(유효한 범주의 개수가 두 개인 경우)일 때 사용된다.

 

① 단순 로지스틱 회귀분석 : 종속변수가 이항형 문제(범주의 개수가 두 개인 경우)인 회귀분석이다.

② 다중 로지스틱 회귀분석 : 종속변수가 이항형 문제가 아닌 두 개 이상의 범주를 가지게 될 경우의 회귀분석이다.

   - 로지스틱 회귀함수식은 각 모수에 대해 비선형식이며 승산(odds)으로 로짓변환(0과 1로 조정하는 과정)을 통해 선형함수로 치환이 가능하다.

※ 선형 회귀분석과의 차이점은 종속 변수를 범주형으로 확장하였고 정규분포 대신 이항분포를 따른다는 점이다.

반응형