IT/빅데이터분석기사

[1과목] 데이터분석계획 - KDD분석 방법론 & CRISP-DM 분석 방법론 & SEMMA 분석 방법론

김비서 2021. 8. 16. 18:47
728x90

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

 

https://cafe.naver.com/yjbooks/8162

 

[1과목] 데이터분석기획 - KDD분석 방법론 & CRISP-DM 분석 방법론

1. KDD 분석 방법론 KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 ...

cafe.naver.com

 

 

1. KDD 분석 방법론

KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이다.

※ 데이터마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에 응용 가능하다.

※ 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시한다.

 

※ KDD 분석 방법론의 분석절차 : 총 5단계

     데이터셋 선택(Selection)

  → 데이터 전처리(Preprocessing)

  → 데이터 변환(Transformation)

  → 데이터 마이닝(Data Mining)

  → 데이터 마이닝 결과 평가 (Interpretation / Evaluation)

 

 

 

2. CRISP-DM 분석 방법론

CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로써 4계층으로 구성된 데이터 마이닝 프로세스이다.

※ 데이터 탐색과 이해 및 데이터를 통한 문제 인식과 해결이 가능하다.

 

① CRISP-DM 분석 방법론의 4계층

- 최상위 레벨 : 여러 개의 단계(Phases)로 구성된다.

- 일반화 태스크(Generic Tasks) : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다.

- 세분화 태스크(Specialized Tasks) : 일반화 태스크를 구체적으로 수행한다.

- 프로세스 실행(Process Instances) : 데이터 마이닝을 구체적으로 실행한다.

 

② CRISP-DM 분석 방법론의 분석절차 : 총 6단계

     업무 이해(Business Understanding)

   → 데이터 이해(Data Understanding)

   → 데이터 준비(Data Preparation)

   → 모델링(Modeling)

   → 평가(Evaluation)

   → 전개(Deployment)

 

 

 

3. SEMMA 분석 방법론

SEMMA(Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스이다.

※ SAS Institute의 데이터 마이닝 도구와 손쉽게 접목하여 활용할 수 있다.

※ 주로 데이터 마이닝 프로젝트의 모델링 작업에 중점을 두고 있다.

 

※ SEMMA 분석 방법론의 분석절차 : 총 5단계

추출(Sample) → 탐색(Explore) → 수정(Modify) → 모델링(Model) → 평가(Assess)

 

반응형