IT/빅데이터분석기사

[2과목] 빅데이터 탐색 - 시공간데이터, 다변량 데이터

김비서 2021. 8. 22. 21:14
728x90

1. 시공간 데이터

기본적으로 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것을 지칭한다.

 

① 시간 데이터

기존 데이터는 어느 한 시점에 대한 스냅샷 정보이다. 그래서 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현을 정의한다.

- 유효시간, 거래시간, 사용자 정의 시간, 스냅샷 데이터, 거래 시간 데이터, 유효 시간 데이터, 이원 시간 데이터 등

 

② 공간 데이터

기존 데이터베이스보다 복잡하고 다양한 유형의 값을 갖는 공간 데이터를 효율적으로 관리, 저장, 이용하는 데 초점을 맞춘다. 

- 비공간 타입, 래스터 공간 타입, 벡터 공간 타입, 기하학적 타입, 위상적 타입 등

 

③ 공간 데이터 모델

- 관계형 모델 : 기존 정적 모델로 데이터의 표현이 유현하지 못하며 실세계 공간의 객체의 특징을 적절히 표현하지 못하는 문제점이 있다.

- 객체지향 모델

  * 비 구조적이고 복잡한 데이터를 자연스럽게 표현한다.

  * 데이터 계층 구조를 이용한 연산이 쉽다.

  * 새로운 함수의 확장이 쉽다.

  * 데이터 무결성 검사가 쉽다.

  * 설계 단계 모델 <-> 구현 단계 모델 사이의 불일치 문제를 줄인다.

 

④ 시공간 데이터

  * 시공간자료는 정의언어와 조작언어로 구분한다.

- 시공간자료 정의언어 : 시공간 테이블 인덱스 및 뷰(view)의 정의문, 변경문 등이 포함되어 있다. 이 자료는 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간속성 타입이 추가되어 있다.

- 시공간자료 조작언어 : 객체의 삽입, 삭제, 변경 등의 검색문이 있다. 이 문장들은 시간지원 연산자와 공간 연산자를 포함하며 이를 통해 객체에 대한 공간관리와 이력정보를 제공한다.

 

 

2. 다변량 데이터

다변량 데이터 탐색은 기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것이다. 변수들 간의 상관관계를 이용하여 변수를 축약하거나 개체들을 분류하고 관련된 분석방법 등을 동원하여 데이터 분석을 하는 것이다.

 

① 다중회귀(Multiple Regression)

독립변수가 2개 이상인 회귀모형을 지칭하며 각 독립 변수는 종속변수와 선형관계에 있음을 가정한다.

 

② 로지스틱 회귀(Logistic Regression)

영국의 통계학자인 D. R. Cox가 1958년에 제안한 확률 모델로 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법이다. 종속 변수가 이항형 문제(유효한 범주의 개수가 두 개인 경우)를 지칭할 때 사용된다.

 

- 특징 : 로지스틱 회귀의 모델은 종속 변수와 독립 변수 사이의 관계에 있어서 선형 모델과 차이점을 지니고 있다. 첫 번째 차이점은 이항형인 데이터에 적용하였을 때 종속 변수 y의 결과가 범위[0,1]로 제한된다는 것이고 두 번째 차이점은 종속 변수가 이진적이기 때문에 조건부 확률P(y|x)의 분포가 정규분포 대신 이항 분포를 따른다는 점이다.

 

③ 분산분석(ANOVA : Analysis of Variance)

분산분석은 3개 이상의 표본들의 차이를 표본 평균 간의 분산과 표본 내의 관측치 간 분산을 비교하여 가설을 검정하는 것이다.

 

④ 다변량 분산분석(Multi Variate ANOVA)

측정형 변수, 종속 변수가 2개 이상인 분산분석이다.

 

 

1) 변수축약

변수들 간의 상관관계를 이용하여 변수를 줄이는 방법으로 변수유도기법이라고도 한다.

 

① 주성분분석(PCA : Principal Component Analysis)

다변량자료에서 존재하는 비정규성(abnormality)이나 이상치(outlier)를 발견하기 위하여 변수들의 상관관계(또는 공분산)가 존재하지 않는 새로운 변수(주성분)를 구하는 것을 지칭한다.

 

② 요인분석(Factor Analysis)

다수의 변수들의 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법으로 이해하면 된다. 즉, 다수의 변수들 간의 정보손실을 최소화하면서 소수의 요인(Factor)으로 축약하는 것이다.

 

③ 정준상관분석(Canonical Analysis)

두 변수집단 간의 연관성(Association)을 각 변수집단에 속한 변수들의 선형결합(Linear Combination)의 상관계수를 이용하여 분석 하는 방법이다(일반화된 상관계수)

  * 정준변수(Canonical Variable) : 새로 만들어진 선형결합이다.

  * 정준상관계수(Canonical Correlation Coefficient) : 정준변수들 사이의 상관계수이다.

 

 

2) 개체유도

개체들의 특성을 측정한 변수들의 상관관계를 이용하여 유사한 개체를 분류하는 방법이다.

 

① 군집분석(Cluster Analysis)

변수 또는 개체(item)들이 속한 모집단 또는 범주에 대한 사전정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집(cluster)으로 나누는 분석법으로 정의한다.

- 계층적(hierarchical) 방법

- 비계층적(nonhierarchical) 방법 또는 최적분화(partitioning) 방법

- 조밀도에 의한 방법

- 그래프를 이용하는 방법

 

 ② 다차원 척도법(MDS : Multi-Dimensional Scaling)

다차원 척도법은 다차원 관측값 또는 개체들 간의 거리(distance) 또는 비유사성(dissimilarity)을 이용하여 개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 공간상에 위치 시켜(spatial configuration) 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는 데 목적이 있다. 

 

③ 판별 분석(Discriminant Analysis)

2개 이상의 그룹으로 나누어진 개체에 대해 분류에 영향을 미칠 것 같은 특성(변수)을 측정하고 이를 이용하여 새로운 개체를 분류하는 방법이다.

- 로지스틱 판별분석(Logistic Discriminant Analysis) : 분류를 하는 도구(판별식)를 로지스틱 회귀분석을 이용하여 분류하는 방법이다.

 

※ 다변량 분석의 종류를 구분할 줄 알아야 한다.

 

 

 

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

 

https://cafe.naver.com/yjbooks/8607

 

[2과목] 빅데이터 탐색 - 다변량 데이터 탐색

1. 다변량 데이터 탐색이란? 다변량 데이터 탐색은 기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것이다. 변수들 간의 상관관계를 이용하여 변수를 축약하거나 개체들을 분...

cafe.naver.com

 

반응형