전체 글 141

[2과목] 빅데이터 탐색 - 차원 축소

1. 자료의 차원 : 분석하는 데이터의 종류의 수를 의미한다. 2. 자원의 축소 : 자원의 축소는 어떤 목적에 다라서 변수(데이터의 종류)의 양을 줄이는 것이다. 3. 차원 축소의 필요성 ① 복잡도의 축소(Reduce Complexity) 데이터를 분석하는 데 있어서 분석시간의 증가(시간복잡도: Time Complexity)와 저장변수 양의 증가(공간복잡도 : Space Complexity)를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다. ② 과적합(Overfit)의 방지 차원의 증가는 분석모델 파라메터의 증가 및 파라메터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다. 작은 차원만으로 안정적인(robust) 결과를 도출해 낼 수 있다면 ..

[2과목] 빅데이터 탐색 - 분석변수처리

1. 변수 선택 통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 좋다. 하지만 분석모형을 구성하고 사용하는 데 지속적으로 필요 이상의 많은 데이터를 요구할 수 있다. 2. 회귀분석의 사례 예를 들어, 회귀모형에 의한 분석의 경우 최종 결과를 도출해 내기 위해서 사용된 독립 변수가 m개이고 이를 통해서 얻어진 설명력이 R2 = 89% 라고 했을 때, m보다 작은 n개만을 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가한다. ※ 회귀(regression) : 변수 x와 y의 관계를 함수식으로 설명하는 통계적 방법 1) 변수별 모형의 분류 ① 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형으로 정의한다. ② 축소 모형(RM :..

[2과목] 빅데이터 탐색 - 데이터의 정제, 결측값, 이상값

1. 데이터의 정제 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정이다. ① 데이터 정제의 과정(Processing) - 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요하다. - 시스템 내,외부에서 데이터를 수집하면 정형보다 비정형 데이터(Unstructured Data)들이 많다. 비정형 데이터의 경우 기본적으로 구조화된 정형 데이터(Structured Data)로의 변환을 수행하고 변환된 데이터에서 결측치나 오류의 수정 과정을 거친다. - 기존 시스템 내의 데이터와 비교분석이 필요한 경우 레거시(Legacy Data. 과거로부터 물려..

[2과목] 빅데이터 탐색 - 데이터의 종류

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 정확한 내용은 아래 링크를 참고하세요. https://cafe.naver.com/yjbooks/8352 [2과목] 빅데이터 탐색 - 데이터의 종류 1. 데이터의 정의 : 이론을 세우는 기초가 되는 사실 또는 자료를 지칭하며 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화·수치화한 자료를 말한다. 2. 데이터... cafe.naver.com 1. 데이터의 정의 : 이론을 세우는 기초가 되는 사실 또는 자료를 지칭하며 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화, 수치화한 자료를 말한다. ※ 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득 2. 데이터의 종류..

[1과목] 데이터수집 및 저장 계획 - 데이터 적재

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 정확한 내용은 아래 링크를 참고하세요. https://cafe.naver.com/yjbooks/8256 [1과목] 데이터수집 및 저장 계획 - 데이터 적재 1. 데이터 수집 및 적재 연계 - 적재할 데이터의 유형과 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장 시스템에 데이터를 적재할 수 있다. - NoSQL ... cafe.naver.com 1. 데이터 수집 및 적재 연계 - 적재할 데이터의 유형과 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장 시스템에 데이터를 적재할 수 있다. - NoSQL DBMS가 제공하는 적재 도구와 Fluentd, Flume, Scribe, Log-stash..

[1과목] 데이터수집 및 저장 계획 - 데이터 수집 절차

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 정확한 내용은 아래 링크를 참고하세요. https://cafe.naver.com/yjbooks/8223 [1과목] 데이터수집 및 저장 계획 - 데이터 수집 절차 1. 데이터 수집(Data Collection) 개요 데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다. 2. 기초... cafe.naver.com 1. 데이터 수집(Data Collection) 개요 데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다. 2. 기초 데이터 수집 수행 절차 3. 데이터 수집 시스템 구축 절차 4. 데이터 수집 기술 데이터 유..

[1과목] 데이터분석계획 - 분석 절차와 작업 계획

1. 분석 절차 분석 절차는 데이터 분석의 시발점이 되는 문제 인식에서부터 시작하여 데이터를 확보하고 분석하여 결과를 도출 및 제시하는 단계가지의 일반적인 과정을 정형화한 프로세스이다. ① 분석 절차의 특징 - 데이터 분석을 수행하기 위한 기본적인 과정을 명시하고 있다. - 분석 방법론을 구성하는 최소 요건이다. - 상황에 따라 단계를 추가할 수도 있으며 생략 가능하다. ② 일반적인 분석 절차 문제인식 → 연구조사 → 모형화 → 데이터 수집 → 데이터 분석 → 분석 결과 제시 ※ 데이터 분석의 절차는 데이터 수집 → 저장 → 처리 → 분석 → 시각화 → 이용 → 폐기 단계로 정의할 수도 있다. 2. 작업 계획 분석 작업 계획은 분석 절차에 따라 데이터 분석 업무를 수행하기 위한 전반적인 작업 내용들을 세..

[1과목] 데이터분석계획 - 분석 작업 계획

1. 분석 작업 개요 분석 작업 계획을 수립하기 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과 데이터 분석 영역으로 나누어 살펴볼 수 있다. ※ 분석 작업 계획의 전체 흐름을 이해해야 한다. 1) 데이터 처리 영역 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역이다. 2) 데이터 분석 영역 저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역이다. 2. 데이터 확보 계획 1) 분석에 필요한 변수 정의 데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석변수를 정의한다. ① 데이터 수집 기획 - 데이터 수집 기법을 활용하여..

[1과목] 데이터분석계획 - 빅데이터 분석 방법론 개발 절차

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 정확한 내용은 아래 링크를 참고하세요. https://cafe.naver.com/yjbooks/8195 [1과목]데이터 분석기획- 빅데이터 분석 방법론 개발 절차 빅데이터 분석 방법론 개발 절차 순서 1) 분석 기획 (Planning) ↓ 2) 데이터 준비 (Preparing) ↓ 3) 데이터 분석 (Analyzing) ↓ 4) 시... cafe.naver.com 1. 빅데이터 분석 방법론 개발 절차 순서 1) 분석 기획(Planning) ↓ 2) 데이터 준비(Preparing) ↓ 3) 데이터 분석(Analyzing) ↓ 4) 시스템 구현(Developing) ↓ 5) 평가 및 전개(Deploying) 1) 분석 기획(..

[1과목] 데이터분석계획 - KDD분석 방법론 & CRISP-DM 분석 방법론 & SEMMA 분석 방법론

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 정확한 내용은 아래 링크를 참고하세요. https://cafe.naver.com/yjbooks/8162 [1과목] 데이터분석기획 - KDD분석 방법론 & CRISP-DM 분석 방법론 1. KDD 분석 방법론 KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 ... cafe.naver.com 1. KDD 분석 방법론 KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이..