IT/빅데이터분석기사

[4과목] 분석결과 시각화 - 분포 시각화

김비서 2021. 9. 16. 23:55
728x90

1. 분포 시각화

(1) 분포 시각화 정의

데이터의 분포를 시각적으로 표현하는 기법을 말하며, 특정 변수의 값들이 어떻게 분포되어 있는지를 파악하기 위해 사용한다.

- 원그래프와 같이 비율로 영역을 표현하는 경우 각 영역을 모두 합치면 1 또는 100%가 되는 특징을 가진다.

- 분포 데이터의 시각화는 최대, 최소, 전체분포를 나타내는 그래프로 표현하며, 전체의 관점에서 각 부분이 차지하는 정보를 히스토그램, 파이차트, 도넛차트, 누적막대그래프, 트리맵 등으로 시각화한다.

※ 시각화 방법들의 장단점을 구분하자.

 

(2) 히스토그램(Histogram)

막대그래프의 일종으로 세로축은 데이터의 분포 정도를 표현하고, 가로축은 특정 변수의 구간 폭을 의미한다.

- 데이터셋 안에서 특정 변수의 값이 어떻게 분포되어 있는지를 파악해야 하는 경우(도수분포) 주로 사용한다.

- 도수분포표 : 데이터 값의 다양한 산출 분포를 보여주는 목록이나 표이다. 일정한 범위를 기준(계급이라고 함)으로 데이터 값의 발생 건수를 요약해서 보여준다.

도수분포표화 히스토그램 [출처 : 이기적스터디카페]

 

- 구간을 설정해서 데이터를 표현하기 때문에, 적절한 구간 폭을 선택하고 각각의 막대가 동일한 폭을 갖도록 설정해야 시각적으로 정확하게 표현된다.

- 구간폭을 좁게 하는 경우 데이터 분포 차이를 잘 표현할 수 있지만 전체적인 흐름을 파악하기 어려울 수 있고, 구간폭을 넓게 하는 경우는 데이터 분포의 급격한 변화를 표현하기가 어렵다.

- 누적히스토그램(Cumulative Histogram)은 히스토그램의 각 구간의 값을 누적시켜서 표현한다. 따라서, 데이터의 출현 빈도를 오른쪽으로 누적하면서 표시하며 마지막 막대는 전체 데이터의 총 수를 나타낸다.

히스토그램과 누적히스토그램 [출처 : 이기적스터디카페]

 

 

(3) 원그래프(파이차트)

하나의 원을 구성하는 데이터의 비율에 따라 조각으로 나누어서 데이터의 분포를 표현한다.

- 원을 구성하는 각각의 요소의 비율을 한눈에 보여주지만, 막대그래프와 같이 데이터의 값을 정확하게 표현하기 어렵다는 단점이 있다.

- 하나의 분류에 대한 값의 분포를 표현하기 때문에, 여러 분류에 대한 값을 표현하기 위해서는 각각의 차트가 필요하다.

파이차트 [출처 : 이기적스터디카페]

 

 

(4) 도넛차트

막대그래프를 누적하고 도넛 모양으로 만든 형태이며, 원그래프가 면적으로 분포비율을 표현하는데 반해 도넛차트는 면적이 아닌 길이로 데이터 값의 정도를 표현한다.

- 같은 성격의 데이터인 경우 여러 개의 차트를 겹쳐서 보여줄 수 있다.

- 중첩도넛차트 : 도넛차트 여러 개를 겹쳐서 표현하는 것으로, 여러 분류에 대한 값을 하나의 차트로 표현할 수 있다.

도넛차트와 중첩도넛차트 [출처 : 이기적스터디카페]

 

 

(5) 트리맵

트리맵은 전체 데이터를 표현하는 하나의 사각형 영역에 세부 사각형들의 크기로 데이터의 분포를 시각화하여 표현한다.

- 하나의 대분류에 속한 세부 분류 데이터들의 분포를 영역의 크기를 이용하여 효과적으로 보여준다.

- 내부의 사각형도 하위 분류를 적용해서 다시 맵을 구성할 수 있기 때문에, 계층형/트리 구조를 가진 데이터를 표현하는 데 유용하다.

트리맵 [출처 : 이기적스터디카페]

 

 

(6) 누적연속그래프(누적영역차트)

시간 변화에 따른 값의 변화를 선그래프의 영역으로 표현한다. 가로축은 시간을 나타내며 세로축은 데이터 값을 표시한다.

- 누적막대그래프와 유사하지만, 시간에 따라 변화하는 값의 흐름을 더 잘 보여준다. 또한, 세로 영역의 한 단면만 보여주면 그 시점의 분포를 볼 수 있다.

- 누적영역차트는 아래 부분의 데이터 값이 윗부분의 위치에 영향을 주기 때문에(값이 누적됨), 값의 분포를 표현하는 데 적합하며 한 집단의 경향성을 알아보기는 어렵다.

누적영역차트 [출처 : 이기적스터디카페]

반응형