IT/빅데이터분석기사

[2과목] 빅데이터 탐색 - 데이터분석, 상관분석, 기초통계, 분포형태

김비서 2021. 8. 22. 18:16
728x90

1. 데이터 탐색의 개요

1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis)

수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 방법이다.

 

2) 탐색적 데이터 분석의 필요성

- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있다.

- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 인지하지 못한 양상, 패턴을 발견할 수 있다. 

 

3) 분석과정 및 절차

- 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인한다.

- 데이터의 문제성을 확인한다. 즉, 데이터의 결측치의 유무, 이상치의 유무 등을 확인하고 추가적으로 분포상의 이상 형태 Head 또는 Tail 부분을 확인한다.

- 데이터의 개별 속성값이 예상한 범위 분포를 가지는지 확인한다.

- 관계속성 확인 절차를 가진다. 즉, 개별 데이터 간의 속성 관찰에서 보지 못한 데이터 간의 속성(상관관계 등)을 확인한다.

 

4) 이상치의 검출

① 개별 데이터 관찰

② 통계값 활용

  - 데이터의 중심을 알기 위해서는 평균(mean), 중앙값(median), 최빈값(mode)을 사용할 수 있다.

  - 데이터의 분산도를 알기 위해서는 범위(range), 분산(variance)을 사용할 수 있다.

③ 시각화 활용

  - 시각화 방법에는 확률밀도 함수, 히스토그램, 점플롯(dot plot), 워드 클라우드, 시계열 차트, 지도 등이 있다.

④ 머신러닝 기법 활용

 

 

2. 상관관계분석

1) 변수 간의 상관성 분석

두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계나 상관된 관계일 수 있으며 이때 두 변수 간의 관계의 강도를 상관관계(correlation)라 한다.

 

2) 상관분석의 기본가정

① 선형성

② 동변량성

③ 두 변인의 정규분포성

④ 무선독립표본

 

3) 상관분석 방법

① 피어슨 상관계수(Pearson Correlation Coefficient 또는 Pearson's r)

- 두 변수 X와 Y 간의 선형 상관관계를 계량화한 수치이다.

- 피어슨 상관계수는 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 의미한다.

 

② 스피어만 상관계수(Spearman Correlation Coefficient)

데이터가 서열자료인 경우, 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 구한다.

- 두 변수 간의 연관 관계가 있는지 없는지를 밝혀 주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다.

 

 

3. 기초통계량의 추출 및 이해

기초 통계량이란, 자료를 수집하여 요약, 정리하는 기초통계(또는 기술통계)는 자료의 특성을 정량적인 수치에 의해서 나타내는 방법이다.

※ 주요 용어들을 확실히 알고 넘어가야 한다.

 

1) 중심화 경향 기초통계량

① 산술평균(Arithmetic Mean) : 모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적인 평균을 의미한다.

  * 모평균(Population Mean) : 모집단 전체 자료의 산술평균

  * 표본평균(Sample Mean) : 모집단의 부분집합인 추출된 표본 전체의 산술평균

 

② 기하평균(Arithmetic Mean) : N개의 자료에 대해서 관측치를 곱한 후 n 제곱근으로 표현한다.

 

③ 중앙값(Median) : 자료를 크기 순으로 나열할 때 가운데에 위치한 값이다.

 

④ 최빈값(Mode) : 가장 노출 빈도가 높은 자료를 최빈값이라 한다. 최빈값은 질적자료나 양적자료 모두에 사용된다.

 

⑤ 분위수(Quantile) : 분위수는 자료의 위치를 표현하는 수치이다.

 

 

2) 산포도(분산도, Degree Dispersion)

자료의 퍼짐 정도를 나타내는 기초 통계량이다. 중심 위치의 측도만으로 자료의 분포에 대한 충분한 정보를 얻을 수 없으므로 중심 경향도 수치에서 자료가 얼마나 떨어져 있는지를 측정하는 척도도 필요하다.

 

① 분산(Variance), 표준편차(Standard Deviation)

분산은 평균을 중심으로 밀집되거나 퍼짐 정도을 나타내는 척도이고 표준편차는 분산의 제곱근으로 표현된다.

분산으로 얻은 수치를 해석하기가 곤란하다는 단점을 보완하기 위하여 제곱근을 취한 척도가 표준편차이다.

  - 개개의 자료값에 대한 정보를 반영한다.

  - 수리적으로 다루기 쉽다.

  - 특이점에 매우 큰 영향을 받는다.

  - 분산이 클수록 각 자료값이 평균으로부터 넓게 흩어진 형태를 갖는다.

  - 미지의 모분산을 추론할 때 많이 사용한다. 

 

② 범위(Range)

 

③ 평균 절대 편차(MAD : Mean Absolute Deviation, MD : Mean Deviation)

각 자료값과 표본평균과의 편차의 절댓값에 대한 산술평균을 의미한다.

관측값에서 평균을 빼고, 그 차이값에 절댓값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것

  - 개개의 자료값에 대한 정보를 반영한다.

  - 특이점에 대한 영향을 범위보다 적게 받는다.

  - 절댓값을 사용하여 수리적으로 다루기 부적절하다.

  - 평균 편차가 클수록 폭넓게 분포한다.

 

④ 사분위편차(Interquartile Range)

자료의 크기 순으로 배열 후 자료의 1/4 에 해당하는 1사분위수(Q1)를 구하고 3/4에 해당하는 3사분위수(Q3)를 구한다. 사분위편차는 Q3 - Q1으로 정의되며 자료의 50% 범위 내에 위치하게 됨을 의미한다.

 

⑤ 변동계수(CV : Coefficient of Variance) : 평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치

 

 

3) 자료의 분포형태(Shape of Distribution)

① 왜도(Skewness)

분포가 어느 한쪽으로 치우친(비대칭, asymmetry) 정도를 나타내는 통계적 척도이다. 오른쪽으로 더 길면 양의 값이 되고 왼쪽으로 더 길면 음의 값이 된다. 분포가 좌우 대칭이면 0이 된다.

 

왜도 [출처 : 이기적스터디카페]

 

② 첨도(Kurtosis)

분포의 뾰족한(peakedness) 정도를 나타내는 통계적 척도이다.

평균을 중심으로 가까이 몰리면 더욱 뾰족한 모양, 즉 첨도가 커진다.

 

첨도 [출처 : 이기적스터디카페]

 

 

4. 시각적 데이터 탐색

1) 통계적 시각화 도구

① 도수분포표(Frequency Table) : 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표로 질적자료의 경우는 각 자료값(범주)에 대하여 도수나 상대도수로 표현한다.

 

② 히스토그램(Histogram) : 도수분포표를 이용하여 표본의 자료분포를 나타낸 그래프이다.

 

③ 막대그래프(Bar Chart) : 각 자료값에 대한 도수 또는 상대도수를 그림으로 표현한 것이다.

 

④ 파이차트(Pie Chart) : 각 자료값의 상대도수로 기입하여 원의 면적에 각 상대 크기별로 나타낸 그래프이다.

 

⑤ 산점도(Scatter Plot) : 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법이다.

* 산점도는 이상치를 확인하는 경우에도 유용하다.

 

⑥ 줄기 잎 그림(Stem-and-Leaf Diagram) : 통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 것을 말한다. 줄기 잎 그림은 자료의 정리가 가능할 뿐 아니라 자료의 구조에 대한 정보도 파악이 가능한 도구이다.

 

⑦ 상자 수염그림(Box Plot) : 수치적 자료를 표현하는 그래프이다. 이 그래프는 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어 낸 통계량이 5가지 요약 수치(다섯 숫자 요약, Five-number summary)를 가지고 그린다.

※ 5가지 요약 수치 : 최솟값, 제1사분위(Q1), 제2사분위(Q2), 제3사분위(Q3), 최댓값을 일컫는 말이다.

 

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

 

https://cafe.naver.com/yjbooks/8569

 

[2과목] 빅데이터 탐색 - 자료의 분포 형태

1. 왜도(Skewness) - 분포가 어느 한쪽으로 치우친(비대칭, asymmetry) 정도를 나타내는 통계적척도이다. - 오른쪽으로 더 길면 양의 값이 되고 왼쪽으로 더 ...

cafe.naver.com

 

반응형