IT/빅데이터분석기사

[2과목] 빅데이터 탐색 - 차원 축소

김비서 2021. 8. 22. 15:34
728x90

1. 자료의 차원

: 분석하는 데이터의 종류의 수를 의미한다.

 

 

2. 자원의 축소

: 자원의 축소는 어떤 목적에 다라서 변수(데이터의 종류)의 양을 줄이는 것이다.

 

 

3. 차원 축소의 필요성

① 복잡도의 축소(Reduce Complexity)

데이터를 분석하는 데 있어서 분석시간의 증가(시간복잡도: Time Complexity)와 저장변수 양의 증가(공간복잡도 : Space Complexity)를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다.

 

② 과적합(Overfit)의 방지

차원의 증가는 분석모델 파라메터의 증가 및 파라메터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다.

작은 차원만으로 안정적인(robust) 결과를 도출해 낼 수 있다면 많은 차원을 다루는 것보다 효율적이다.

 

③ 해석력(Interpretability)의 확보

차원이 작은 간단한 분석모델일수록 내부구조 이해가 용이하고 해석이 쉬워진다.

 

 

4. 차원 축소의 방법

데이터 분석에 있어서 차원 축소의 필요성을 인지하고 실제적으로 차원을 축소하는 데 사용될 수 있는 방법이다.

 

① 요인분석(Factor Analysis)

: 다수의 변수들 간의 관계(상관관계)를 분석하여 공통차원을 축약하는 통계분석 과정이다.

 

※ 요인 분석의 목적

  - 변수 축소 : 다수의 변수들의 정보손실을 억제하면서 소수의 요인(Factor)으로 축약하는 것을 말한다.

  - 변수 제거 : 요인에 대한 중요도 파악이다.

  - 변수특성 파악 : 관련된 변수들이 묶임(군집)으로써 요인 간의 상호 독립성 파악이 필요하다.

  - 타당성 평가 : 묶여지지 않는 변수의 독립성 여부를 판단한다.

  - 파생변수 : 요인점수를 이용한 새로운 변수를 생성한다. 회귀분석, 판별분석 및 군집분석 등에 이용할 수 있다.

※ 요인 분석의 종류

  - 주성분 분석, 공통요인 분석 특이값 분해, 행렬과 음수미포함 행렬분해 등이 있다.

 

② 주성분 분석(PCA : Principal Component Analysis)

- 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징(주성분, Principal Component)을 찾는 것을 의미한다.

- 서로 연관성이 있는 고차원공간의 데이터를 선형연관성이 없는 저차원(주성분)으로 변환하는 과정을 거친다(직교변환을 사용)

- 기존의 기본변수들을 새로운 변수의 세터로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보한다. 

- PCA는 데이터 하나하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터들이 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석해 주는 방법이라고 할 수 있다.

 

※ PCA의 특징

  - 차원 축소에 폭넓게 사용된다. 어떠한 사전적 분포 가정의 요구가 없다.

  - 가장 큰 분산의 방향들이 주요 중심 관심으로 가정한다.

  - 본래의 변수들의 선형결합으로만 고려한다.

  - 차원의 축소는 본래의 변수들이 서로 상관이 있을 때만 가능하다.

  - 스케일에 대한 영향이 크다. 즉 PCA 수행을 위해선 변수들 간의 스케일링이 필수이다.

 

③ 특이값 분해(SVD : Singular Value Decomposition)

- 특이값 분해 소개(선형대수)

- Orthogonal Matrix의 정의

- Diagonal Matrix의 정의

 

※ 특이값 분해의 차원 축소 원리

  - 수학적 원리

  - 데이터의 응용

  - 즉, 몇 개의 특이값을 가지고도 충분히 유용한 정보를 유지할 수 있는 차원을 생성해 낼 수 있다(차원축소).

 

④ 행렬과 음수 미포함 행렬분해(NMF : Non-negative Matrix Factorization)

- 음수 미포함 행렬분해는 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘이다. 

- NMF의 이해

- NMF의 차원 축소 : 행렬 곱셈에서 행렬은 결과행렬보다 훨씬 적은 차원을 가지기 때문에 NMF가 차원을 축소할 수 있다.

 

 

 

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

 

https://cafe.naver.com/yjbooks/8426

 

[2과목] 빅데이터 탐색 - 차원 축소

1. 자료의 차원이란? :분석하는 데이터의 종류의 수를 의미한다. 2. 차원의 축소? : 차원의 축소는 어떤 목적에 따라서 변수(데이터의 종류)의 양을 줄이는 것이다. ...

cafe.naver.com

 

반응형