1. 분석 작업 개요
분석 작업 계획을 수립하기 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과 데이터 분석 영역으로 나누어 살펴볼 수 있다.
※ 분석 작업 계획의 전체 흐름을 이해해야 한다.
1) 데이터 처리 영역
데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역이다.
2) 데이터 분석 영역
저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역이다.
2. 데이터 확보 계획
1) 분석에 필요한 변수 정의
데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석변수를 정의한다.
① 데이터 수집 기획
- 데이터 수집 기법을 활용하여 필요 데이터를 배치 자동화로 수집한다.
- 데이터 거래소, 공공 데이터에 적재된 분야별 데이터를 분류하고 선별한다.
② 분석 변수 정의
- 빅데이터의 특징을 고려하여 분석 변수 생성을 기획한다.
※ 빅데이터의 특징 : Volume, Variety, Velocity, Veracity, Value
- 분석 변수 유형과 형성 알고리즘을 이용하여 분석 유형을 도출한다.
2) 분석 변수 생성 프로세스 정의
분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스를 정의한다.
3) 생성된 분석 변수의 정제를 위한 점검항목 정의
분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목을 정의한다.
① 분석 변수 점검항목 정의
4) 생성된 분석 변수의 전처리 방법 수립
① 데이터 전처리 수행
- 데이터 정제(Cleaning) : 결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
- 데이터 통합(Integration) : 다수의 정제된 데이터를 통합하여 표현하는 작업
- 데이터 축소(Reduction) : 데이터 집합은 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업
- 데이터 변환(Transformation) : 데이터 집합은 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업
(데이터 축소, 데이터 변환 설명이 똑같네..)
② 빅데이터 분석 프로세스 수행
5) 생성 변수의 검증 방안 수립
※ 품질 검증 전략
- 정확성(Accuracy) : 데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용
- 완전성(Completeness) : 필요한 데이터인지 식별하는 수준으로 품질 요소 적용
- 적시성(Timeliness) : 소멸성이 강한 데이터에 대한 품질 기준 판단
- 일관성(Consistency) : 동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용