IT/빅데이터분석기사

[3과목] 분석 모형 설계 - 분석 절차 수립

김비서 2021. 9. 7. 23:26
728x90

1. 분석 모형 선정

(1) 분석 모형 선정 필요성

- 분석 기법 또는 분석 알고리즘을 적용하기 전에 분석 모형에 대한 선정이 필요하다.

- 분석이 필요한 데이터 속성을 세부적으로 파악, 처리한 뒤에 분석 모형을 선정, 적합한 분석 기법을 선택하게 된다.

 

(2) 분석 모형 선정 프로세스

- 분석 모형 선정은 다음 순서와 같은 분석 이전의 단계들을 수행하면서 선정을 진행한다.

① 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/ 조건 정의

② 데이터 수집, 정리 및 도식화

③ 데이터 전처리(데이터 정제, 종속/독립변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등)

④ 분석 모형 선정

 

 

2. 분석 모형 정의

(1) 분석 모형 정의와 종류

① 예측 분석 모형 : 적조 예측, 날씨 예측, 주가 예측, 범죄/ 위험 예측, 쇼핑아이템 추천 등 과거, 현재까지의 데이터와 상황에 따른 가설을 기반하여 미래에 대한 현상을 사전에 분류하고 예측하는 모형이다.

② 현황 진단 모형 : 과거 데이터를 통해 현재 상황을 객관적으로 진단하는 모형으로 미래 예측이 아닌 현재를 이해함에 활용한다.

③ 최적화 분석 모형 : 제한된 자원, 환경 내에서 최대의 효용성, 이익과 같은 결과를 생성하기 위해 분석 모델을 최적화하는 데에 중점을 둔다.

 

분석모형 평가기준표 예시 [출처 : 이기적스터디카페]

- 분석 모형 정의에 필요한 데이터가 충분히 확보되어 있는지를 판단하며 의사결정 지점으로 가는 과정에서 분석 기회를 발굴하거나 관련 과거 분석 사례 또는 솔루션을 최대한 활용할 수 있는지 검토한다면 보다 효율적인 분석 모형 설계를 진행할 수 있다.

① 상향식(Bottom-up) 접근 : 특정 영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석 기회를 발굴하는 방식이다.

② 분석 유스케이스(Use Case) 기반 접근 : 분석 테마 후보 그룹(pool)을 활용하고 연관된 분석 기회를 발굴하는 방식이다.

 

 

3. 분석 모형 구축 절차

(1) 분석 시나리오 작성

분석 시나리오 작성을 통해 분석 과정과 결과가 어떻게 활용되는지 명확하게 이해할 수 있다.

- 데이터 분석 대상 및 범위를 요구사항에 맞게 정의하며 분석을 통해 해결할 수 있는 문제와 목표 그리고 분석 목표별 구현 모델과 예상 결과를 작성한다

- 분석과정에 필요한 데이터, 절차, 분석기법 등의 세부사항들을 정의한다.

 

 

(2) 분석 모형 설계

분석 모형 설계는 분석 대상 및 범위를 정하여 분석 목적을 구현하기 위한 분석 방법론을 설계하는 단계이다.

 

① 분석 모형 설계시 사전 확인 사항

- 필요한 데이터 항목이 정해졌는가?

- 데이터 단위를 고려, 항목에 따른 표준화 방법을 정하였는가?

- 데이터를 수집한 항목에 따라, 단계별로 모델이 설계되었는가?

- 분석 검증 통계 기법을 선정하였는가?

 

② 분석 모델링 설계과 검정

- 분석목적에 기반한 가설검정

- 추정방법에 대한 기술 검토

- 분석 모델링 설계

 

③ 분석 모델링에 적합한 알고리즘 설계

 

④ 모듈 개발 및 테스트

- 모듈 기능 정의

- 모듈 설계

- 모듈 개발 결과물과 모델 설계와 일치 확인

- 정상 동작 여부 검증

 

 

(3) 분석 모델링 설계와 검정 - 분석 목적에 기반한 가설검정 방법

※ 통계적 가설검정 : 통계적 추측의 하나로서, 모집단의 실제 값이 얼마가 된다는 주장에 대해 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다. 간단히 가설검정이라 부르는 경우가 많다.

통계적 가설은 귀무가설과 이와 반대에 있는 대립가설로 나타난다.

 

가설검정은 다음과 같은 총 5단계의 절차를 거치게 된다.

① 유의수준 결정, 귀무가설과 대립가설 설정

- 귀무가설 : 직접 검정 대상이 되는 가설. '표본을 관찰하고 모집단은 ~할 것이다'라고 내린 가설.

- 가설검정을 시행할 때는 귀무가설이 옳다는 가정하에 시작한다. 이것을 반대로 생각하면 진실할 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설이다.

- 대립가설은 귀무가설이 기각이 될 때 받아들여지는 가설로 정의한다.

 

② 검정통계량의 설정

- 검정통계량 : 가설을 검정하기 위한 기준으로 사용하는 값

- 검정통계량이 확률분포 상에 어디에 위치하는지에 따라 귀무가설을 기각하거나 기각하지 않는다.

 

③ 기각역의 설정

- 기각역 : 확률분포에서 귀무가설을 기각하는 영역

- 기각역에 검정통계량이 위치하면 귀무가설을 기각한다.

 

④ 검정통계량 계산

(표본평균 - 모평균) / (표본 표준편차)

 

- 신뢰수준 : 가설을 검정할 때 어느 정도로 검정할 것인지에 대한 수준

- 유의수준 : 가설을 검정할 때 일정 수준을 벗어나면 귀무가설이 오류라고 판단하는 수준을 말한다.

  유의수준의 수학적 의미는 기각역들의 합이며, 1에서 신뢰수준을 뺀 값이기도 하다.

 

⑤ 통계적인 의사결정(가설검정)

가설검정에서의 검정 방법은 양측검정과 단측검정 두 가지가 있다.

- 양측검정 : 귀무가설을 기각하는 영역이 양쪽에 있는 검정. 대립가설이 ~가 아니다(크거나 작다)라면 양측검정을 사용한다.

기각역 양측검정 [출처 : 이기적스터디카페]

- 단측검정 : 귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정. 대립가설이 ~보다 작다 혹은 크다인 경우 단측검정을 사용한다.

기각역 좌측검정 [출처 : 이기적스터디카페]

- 통계적인 의사결정 단계에서는 계산한 검정 통계량을 t값 분포도와 비교하여 기각역에 속하는지 아닌지를 판단한다.

귀무가설 기각 결정 [출처 : 이기적스터디카페]

 

 

(4) 분석 모델링 설계와 검정 - 추정 방법에 대한 기술 검토

- 전체적으로 데이터에 대한 전처리 과정을 마치게 되면 모형에 활용될 후보 변수와 후보 분석 모형에 사용할 알고리즘을 파악하게 된다.

- 기초 통계, 데이터 검증, 데이터 정제 등의 데이터 변환 과정을 거치면 후보 변수는 전처리 과정에서 선정된다.

- 분석 모형은 크게 분류예측 추천 등의 예측 분석과, 시뮬레이션과 제한된 환경 최적화를 모색하는 예측 최적화로 나누어진다.

반응형