분류 전체보기 141

[4과목] 분석결과 활용

1. 분석모형 전개 (1) 빅데이터 분석 방법론 빅데이터 분석 방법론 참조모델(데이터산업진흥원)은 데이터 분석 프로젝트를 위해 표준적으로 적용할 수 있는 프로세스를 5단계로 정리해서 보여준다. ① 분석기획(Planning) : 분석하려는 비즈니스를 이해하고 분석 목표와 범위를 설정하는 단계이다. 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립 등의 작업을 수행한다. ② 데이터 준비(Preparing) : 프로젝트에 필요한 데이터의 범위와 요건을 정의하고 데이터를 수집, 가공, 준비한다. 필요데이터 정의, 데이터 스토어 설계, 수집 및 정합성 점검 등의 작업을 수행한다. ③ 데이터 분석(Analyzing) : 준비단계에서 확보된 데이터를 이용하여 다양한 분석작업을 수행한..

[4과목] 분석결과 시각화 - 비교 시각화, 공간 시각화

1. 비교 시각화 비교 시각화는 하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현하는 방법이다. - 하나의 변수가 아닌 둘 이상의 변수를 비교하는 경우 대상의 수와 비교하려는 변수의 수만큼 다양한 경우가 존재하기 때문에, 하나 또는 그 이상의 그래프를 통하여 전체를 비교 분석할 수 있어야 한다. ex) 자동차를 구매할 때 제조사나 모델에 따라 크기, 엔진출력, 색상, 가격, 편의성 등 여러가지 변수를 비교하는 경우 ex) 컴퓨터를 구매할 때, 노트북, 데스크탑, 태블릿 등의 유형에 따라 CPU성능, 메모리 용량, 화면 크기 등 여러 변수를 비교하는 경우 (1) 히트맵(Heat Map) 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있는 도구로 관계시각화뿐만 아니라 비교시각화 ..

[4과목] 분석결과 시각화 - 관계 시각화

1. 관계 시각화 데이터 사이의 관계를 시각적으로 표현하는 것을 말한다. 데이터셋에 변수가 2개 이상이 있을 때, 이 변수들의 상관관계를 표현한다. ex) 편의점에서 우유와 빵의 판매량 사이의 관계를 표현, 키와 몸무게 사이의 관계를 표현 - 관계시각화를 위한 대표적인 도구로는 산점도, 버블차트, 히트맵 등이 있다. (1) 산점도(스캐터플롯 : Scatter Plot) 두 변수의 값을 2차원(또는 3차원) 좌표계를 활용하여 점으로 표시한 것으로 점들의 집합이 모여서 두 변수 사이의 관계를 표현한다. - 두 변수 사이의 다양한 관계를 표현할 수 있다. ① 양의 상관관계(비례) : 점이 오른쪽 위로 올라가는 추세 ② 음의 상관관계(반비례) : 점이 오른쪽 아래로 떨어지는 추세 ③ 직선관계, 지수관계, 로그관..

[4과목] 분석결과 시각화 - 분포 시각화

1. 분포 시각화 (1) 분포 시각화 정의 데이터의 분포를 시각적으로 표현하는 기법을 말하며, 특정 변수의 값들이 어떻게 분포되어 있는지를 파악하기 위해 사용한다. - 원그래프와 같이 비율로 영역을 표현하는 경우 각 영역을 모두 합치면 1 또는 100%가 되는 특징을 가진다. - 분포 데이터의 시각화는 최대, 최소, 전체분포를 나타내는 그래프로 표현하며, 전체의 관점에서 각 부분이 차지하는 정보를 히스토그램, 파이차트, 도넛차트, 누적막대그래프, 트리맵 등으로 시각화한다. ※ 시각화 방법들의 장단점을 구분하자. (2) 히스토그램(Histogram) 막대그래프의 일종으로 세로축은 데이터의 분포 정도를 표현하고, 가로축은 특정 변수의 구간 폭을 의미한다. - 데이터셋 안에서 특정 변수의 값이 어떻게 분포되어..

[4과목] 분석결과 시각화 - 시간 시각화

1. 시간 시각화 (1) 시간 시각화 정의 시간에 따른 데이터의 변화를 표현하는 것으로 일정기간에 걸쳐 진행되는 변화와 트렌드를 추적하는 데 주로 사용된다. - 시간 데이터는 특정 시점의 값을 표현하는 이산형과 변화하는 값을 표현하는 연속형으로 구분할 수 있으며, 시간데이터의 전후 관계를 분석하는 것이 핵심이다. ※ 시간 시각화의 데이터 특징과 도구 유형 주요 특징 및 도구 이산형(분절형) 특정 시점 또는 특정 시간의 구간 값을 표현한다. (도구) 막대그래프, 누적막대그래프, 묶은막대그래프, 점그래프 연속형 어떤 구간에서 지속적으로 변화하는 값을 표현한다. (도구) 꺾은선그래프, 계단그래프, 추세선 (2) 막대그래프 - 데이터 값을 길이로 표현한 막대를 배치함으로써 상대적인 차이를 한눈에 알아보도록 표현..

[4과목] 분석결과 시각화 - 데이터 시각화 개요

1. 데이터 시각화 개요 (1) 데이터 시각화 정의 - 데이터 시각화는 데이터의 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정과 기법을 말한다. - 데이터 사이의 관계를 대표할 수 있는 특징을 이미지와 도표 등으로 표현하여 정보를 명확하고 효과적으로 전달하는 것을 목적으로 한다. - 시각화를 위해서는 데이터의 의미를 정확하게 표현하는 기능적인 측면과 사람이 쉽게 인지하고 직관적으로 이해할 수 있는 심미적인 측면을 모두 고려해야 한다. ※ 데이터 시각화 학문적 정의 학자 정의 스터드(Sturat L. Card, 1999) 추상적인 데이터를 컴퓨터의 쌍방향적 시각 표현을 통해서 이해와 이식의 정도를 증폭하는 것이다. 앤디(Andy Kirk, 2002) 대규모의 데이터를 탐색하고 이해하..

[4과목] 분석결과 해석 - 분석 모델별 결과 해석

1. 분석 모델별 결과 해석 (1) 분석모형 해석 분석 후 적합한 모형을 도출하는 데 사용되는 지표는 설명력, 오차율, 인자수, 잔차 등이 있으며 각 모델마다 평가되는 해석 지표들이 다르다. ① 회귀 모델 - 회귀분석을 평가할 때는 잔차, 결정계수 등을 사용한다. - 잔차는 회귀모형으로 예측한 y값과 실제 데이터 간의 차이를 의미하는 것이며 잔차에는 패턴이나 추세가 있어서는 안된다. - 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표로 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다. ② 분류 모델 - 각각의 경우에 따라 클래스별로 속할 확률의 정확도를 살펴본다. ③ 딥러닝 모델 - 딥러닝에서의 적합 모형 해석은 분류문제인 경우 정확도나 오차율을 사용한다. - ..

[4과목] 분석모형 개선 - 분석모형 융합, 최종모형 선정

1. 분석모형 융합 분석 성능을 향상하기 위해 구축된 여러 모형을 결합, 융합한다. (1) 앙상블 학습 주어진 자료를 이용하여 여러 가지 분석 예측모형들을 만들고 해당 예측모형들을 결합하여 최종적인 하나의 예측모형을 만드는 방법이다. ① 장점 : 치우침이 있는 여러 모형의 평균을 취할시 균형적인 결과(평균)을 얻는다. 또한 여러 모형의 분석 결과를 결합하면 변동성 및 과적합의 여지가 줄어든다. ② 종류 : 배깅, 부스팅, 랜덤 포레스트 등이 있다. (2) 결합분석 모형 결합분석 모형은 두 종류 이상의 결과변수를 동시에 분석할 수 있는 방법으로 결과 변수 간의 유의성, 관련성을 설명할 수 있다. 2. 최종모형 선정 최종모형을 선정하기 위해 분석모형 평가지표들을 활용, 구축된 부문별 여러 모형을 비교하여 선..

[4과목] 분석모형 개선 - 매개변수 최적화

1. 매개변수 최적화 매개변수 최적화(Optimization)의 뜻은 학습(예측) 모델과 실제 값의 차이가 손실함수로 표현될 때 손실함수의 값을 최소화하도록 하는 매개변수, 즉 가중치와 편향을 찾는 매개변수의 최적값을 탐색하는 과정이라고 할 수 있다. (1) 확률적 경사 하강법(SGD : Stochastic Gradient Descent) 확률적 경사 하강법은 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘이다. - 데이터 전체를 선택하는 배치 경사 하강법 대비 랜덤으로 선택한 하나의 데이터로만 계산하는 단순하고 명확한 구조가 장점이나 최소값인 (0,0)까지 지그재그로 이동, 매개변수가 방향에 따라 다른 기울기를 갖는 비등방성 함수인 경우 ..

[4과목] 분석모형 개선 - 과대적합 방지

1. 과대적합 방지 훈련 시에는 높은 성능이나, 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지하고, 일반화된 모델을 생성하기 위해 다음과 같은 방향을 제시한다. ※ 과대적합 방지를 위한 기법을 알아두자. (1) 모델의 낮은 복잡도 훈련 데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동으로 탐색한다. - 학습을 하면서 지속적으로 바뀌는 가중치 매개변수가 아닌 상수값이 하이퍼파라미터(학습률, 각 층의 뉴런수 등)는 과대적합의 위험을 줄이기 위해 제약을 가하는 규제의 양을 결정하는 인수로 큰 값을 지정할수록 복잡도가 낮은 모델을 얻게 된다. - 드롭아웃 : 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법으로 훈련 시에는 삭제할..