네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다.
정확한 내용은 아래 링크를 참고하세요.
https://cafe.naver.com/yjbooks/8162
1. KDD 분석 방법론
KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이다.
※ 데이터마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에 응용 가능하다.
※ 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시한다.
※ KDD 분석 방법론의 분석절차 : 총 5단계
데이터셋 선택(Selection)
→ 데이터 전처리(Preprocessing)
→ 데이터 변환(Transformation)
→ 데이터 마이닝(Data Mining)
→ 데이터 마이닝 결과 평가 (Interpretation / Evaluation)
2. CRISP-DM 분석 방법론
CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로써 4계층으로 구성된 데이터 마이닝 프로세스이다.
※ 데이터 탐색과 이해 및 데이터를 통한 문제 인식과 해결이 가능하다.
① CRISP-DM 분석 방법론의 4계층
- 최상위 레벨 : 여러 개의 단계(Phases)로 구성된다.
- 일반화 태스크(Generic Tasks) : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다.
- 세분화 태스크(Specialized Tasks) : 일반화 태스크를 구체적으로 수행한다.
- 프로세스 실행(Process Instances) : 데이터 마이닝을 구체적으로 실행한다.
② CRISP-DM 분석 방법론의 분석절차 : 총 6단계
업무 이해(Business Understanding)
→ 데이터 이해(Data Understanding)
→ 데이터 준비(Data Preparation)
→ 모델링(Modeling)
→ 평가(Evaluation)
→ 전개(Deployment)
3. SEMMA 분석 방법론
SEMMA(Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스이다.
※ SAS Institute의 데이터 마이닝 도구와 손쉽게 접목하여 활용할 수 있다.
※ 주로 데이터 마이닝 프로젝트의 모델링 작업에 중점을 두고 있다.
※ SEMMA 분석 방법론의 분석절차 : 총 5단계
추출(Sample) → 탐색(Explore) → 수정(Modify) → 모델링(Model) → 평가(Assess)