분석 환경 구축 2

[3과목] 분석 환경 구축 - 데이터 분할

1. 데이터 분할 (1) 데이터 분할 정의 분석용 데이터로 모형을 구축하여 평가 및 검증하기 위해서 전체 데이터를 학습 데이터, 평가 데이터, 검증용 테스트 데이터로 분할한다. ① 학습(training) 데이터 : 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터이다. ② 평가(validation) 데이터 : 추정한 분석모델이 과대/과소적합인지 모형의 성능을 평가하기 위한 데이터이다. ③ 검증용 데이터(test) 데이터 : 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터이다. - 보통 학습과 검증을 위해서는 7:3 또는 8:2 비율로 진행되며 전체적인 훈련, 평가, 검증용 테스트 데이터 비율은 일반적으로 4:3:3 또는 5:3:2 로 정한다. (2) 과대적합(Overfitti..

[3과목] 분석 환경 구축 - 분석 도구 선정

1. R : 통계 및 그래프 작업을 위한 인터 프리터 프로그래밍 언어 ※ 인터프리터 : 프로그래밍 언어의 소스 코드를 바로 실행하는 환경이다. 원시 코드를 기계어로 번역하는 컴파일러와 대비된다. 1993년 뉴질랜드 오클랜드 대학교 통계학과 교수들이 통계분석과 자료의 시각화를 위해 개발한 오픈 분석용 프로그래밍 언어로 다음과 같은 특징을 가지고 있다. ① 객체지향 언어 : 일반 데이터, 함수, 차트 등 모든 데이터가 객체 형태로 관리되어 효율적인 조작과 저장방법을 제공한다. ② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속으로 처리되고 재사용 가능하다. ③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터프레임, 리스트 등 다양한 자료구조와 연산기능을 제공한다. ④ 최신패키지 제공 : 오픈소스 커..