IT/빅데이터분석기사

[4과목] 분석결과 시각화 - 관계 시각화

김비서 2021. 9. 17. 00:06
728x90

1. 관계 시각화

데이터 사이의 관계를 시각적으로 표현하는 것을 말한다. 데이터셋에 변수가 2개 이상이 있을 때, 이 변수들의 상관관계를 표현한다.

ex) 편의점에서 우유와 빵의 판매량 사이의 관계를 표현, 키와 몸무게 사이의 관계를 표현

- 관계시각화를 위한 대표적인 도구로는 산점도, 버블차트, 히트맵 등이 있다.

 

 

(1) 산점도(스캐터플롯 : Scatter Plot)

두 변수의 값을 2차원(또는 3차원) 좌표계를 활용하여 점으로 표시한 것으로 점들의 집합이 모여서 두 변수 사이의 관계를 표현한다.

- 두 변수 사이의 다양한 관계를 표현할 수 있다.

① 양의 상관관계(비례) : 점이 오른쪽 위로 올라가는 추세

② 음의 상관관계(반비례) : 점이 오른쪽 아래로 떨어지는 추세

③ 직선관계, 지수관계, 로그관계 등 다양한 상관관계 함수로 유추될 수 있는 관계

산점도 [출처 : 이기적스터디카페]

 

- 점들의 분포에 따라 집중도(강도, 영향력)를 확인할 수 있으며, 관계 추정을 위해 추세선을 추가할 수 있다.

- 점의 크기, 형태, 색상 등을 다르게 하여 하나의 산점도에 다양한 데이터의 특징을 표현할 수 있다.

 

 

(2) 버블차트(Bubble Chart)

x, y 값의 위치를 표시하는 산점도에 점의 위치에 해당하는 제3의 변수값을 원의 크기로 표현한 그래프로 한 번에 3개의 변수를 비교해볼 수 있다.

- 제3의 값을 표시하는 원(버블)은 면적으로 표현되어야 하며, 반지름이나 지름으로 표현되면 실제 값보다 너무 크게 원이 그려질 수 있어서 주의해야 한다.

- 도시별 인구밀집도, 도시별 우유 판매량 등 국가나 지역에 따른 값의 분포를 표현하는 데 매우 유리하다.

버블차트 [출처 : 이기적스터디카페]

 

 

(3) 히트맵(Heat Map)

데이터 분포와 관계에 대한 정보를 색(Heat)으로 표현한 그래프이다. 데이터를 식별하기 위해 각각의 칸마다 색으로 수치의 정도를 표현한다.

히트맵 [출처 : 이기적스터디카페]

반응형