IT/빅데이터분석기사

[4과목] 분석결과 시각화 - 비교 시각화, 공간 시각화

김비서 2021. 9. 17. 00:33
728x90

1. 비교 시각화

비교 시각화는 하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현하는 방법이다.

- 하나의 변수가 아닌 둘 이상의 변수를 비교하는 경우 대상의 수와 비교하려는 변수의 수만큼 다양한 경우가 존재하기 때문에, 하나 또는 그 이상의 그래프를 통하여 전체를 비교 분석할 수 있어야 한다.

ex) 자동차를 구매할 때 제조사나 모델에 따라 크기, 엔진출력, 색상, 가격, 편의성 등 여러가지 변수를 비교하는 경우

ex) 컴퓨터를 구매할 때, 노트북, 데스크탑, 태블릿 등의 유형에 따라 CPU성능, 메모리 용량, 화면 크기 등 여러 변수를 비교하는 경우

 

(1) 히트맵(Heat Map)

여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있는 도구로 관계시각화뿐만 아니라 비교시각화 도구로도 유용하게 사용된다.

- 먼저 표를 작성하고, 표의 숫자 대신에 색상으로 값의 높고 낮은 관계를 표현하면 한눈에 파악할 수 있다.

히트맵 [출처 : 이기적스터디카페]

 

 

(2) 체르노프 페이스(Chernoff Faces)

실생활에서 사람의 얼굴을 쉽게 구분한다는 점에 착안하여, 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타내는 방법으로 사람의 얼굴 모양에서 귀, 머리카락, 눈, 코 등을 각각의 변수에 대응하여 달리해서 표현하는 방법이다.

- 체르노프 페이스에서 얼굴을 표현할 때 사용되는 요소는 다음과 같다.

① 얼굴형 : 얼굴길이, 얼굴너비, 얼굴윤곽

② 입 : 입의 높이, 입의 너비, 입모양

③ 눈 : 눈의 높이, 눈의 너비

④ 머리카락 : 머리카락 높이, 머리카락 너비, 머리카락 모양

⑤ 코 : 코의 높이, 코의 너비

⑥ 귀 : 귀의 높이

체르노프 페이스 [출처 : 이기적스터디카페]

 

 

(3) 스타차트(Star Chart)

하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고, 축에 표시된 해당 변수의 값들을 연결하여 별 모양(또는 거미줄 모양)으로 표현하는 그래프이다.

- 하나의 변수마다 축이 시작되는 시작점(중점)은 최소값을, 가장 먼 끝점은 최대값을 나타낸다.

- 값이 적은 축에 해당하는 부분이 다른 부분에 비해 들어가 보이기 때문에, 여러변수 값들을 비교하여 부족하거나 넘치는 변수를 표현하는 데 적합하다.

- 연결된 선의 모양이나 색을 다르게 하는 경우 여러 속성을 한 번에 표현할 수 있다.

스타차트 [출처 : 이기적스터디카페]

 

 

(4) 평형좌표계(Parallel Coordinates)

스타차트와 체르노프페이스는 한 대상의 특징을 명확하게 보여주지만, 여러 대상을 한 번에 보여주기는 힘들다. 평행좌표계는 스타차트의 여러 축을 평행으로 배치하고, 축의 윗부분을 최대값, 아래부분을 최소값으로 하여 값들을 선으로 연결해서 표현한다.

- 하나의 대상이 변수 값에 따라 위아래로 이어지는 연결선으로 그려지는 특징이 있다.

평행좌표계 [출처 : 이기적스터디카페]

 

 

(5) 다차원척도법(MDS : Multi-Dimensional Scaling)

다차원 척도법은 모든 변수를 비교해서 비슷한 대상을 그래프 상에 가갑게 배치하는 방법이다.

- 대상들 간의 거리 또는 유사성을 이용하여 원래의 차원(변수의 수)보다 낮은 차원의 공간상에 위치시킴으로써 대상들 사이의 상대적 위치를 통해 유사성을 쉽게 파악할 수 있다.

- 다차원척도법은 대상 간의 유사성 측정척도에 따라 다음의 두 종류로 나눌 수 있다.

① 계량형 다차원척도법(metric MDS) : 대상 간의 실제 측정거리 값이나 유클리드거리로 나타낸다.

② 비계량형 다차원척도법(non-metric MDS) : 대상 간의 실제 측정거리 값이나 유클리드 거리의 절대적인 크기는 무시하고, 크기 순서 등의 순위에 관한 정보만을 이용하여 나타낸다.

다차원척도법 [출처 : 이기적스터디카페]

 

 

2. 공간 시각화

(1) 공간 시각화 정의

장소나 지역에 따른 데이터의 분포를 표현하는 것을 공간 시각화라고 하며, 실제 지도나 지도모양의 다이어그램을 배경으로 데이터의 위치를 시각화한다.

ex) 생태조사 데이터는 특정 식물이나 동물이 서식하는 장소가 나열되어 있다.

ex) 인구분포 데이터는 시/군/구에 따른 인구 집중도를 시각적으로 보여줄 수 있다.

- 위치와 거리 또는 색상을 이용하여 정보를 표현할 수 있으며, 정확한 투영(Projection)이 필요하다.

- 공간시각화는 지형코드화 과정과 매핑과정을 거친다.

① 지형코드화(Geocoding) : 래스터 이미지를 고쳐 실세계 지도 투영이나 좌표계에 일치시키는 처리과정으로 위도와 경도를 활용하여 지도상의 위치를 표현한다.

② 매핑(Mapping) : 좌표값을 가진 데이터를 다양한 방법으로 지도에 표시한다.

[출처 : 이기적스터디카페]

 

 

(2) 단계구분도(Choropleth Map)

여러 지역에 걸친 정량 정보를 나타낼 때, 데이터가 분포된 지역별로 색을 다르게 칠한 지도를 단계구분도라고 한다.

- 색을 밀도를 표현할 때 가장 효과적이며, 보통 밀도가 높은 영역을 진하게 표현하고 밀도가 낮은 영역을 연하게 표현한다.

단계구분도 [출처 : 이기적스터디카페]

 

 

(3) 카토그램(Cartogram)

데이터 값의 변화에 따라 지도의 면적을 인위적으로 왜곡(확대 또는 축소)하여 데이터 값에 대한 직관적인 이해가 가능하도록 한 다이어그램이다.

- 단계구분도가 지도상의 데이터 값을 정확하게 표현하는 데 반해, 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시각적 왜곡이 발생할 수 있다.

카토그램 [출처 : 이기적스터디카페]

 

반응형