빅데이터 탐색 7

[2과목] 빅데이터 탐색 - 비정형 데이터

1. 비정형 데이터 비정형 데이터(Unstructured Data, Unstructured Information, 비구조화 데이터, 비구조적 데이터)는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 말한다. ① 비정형 데이터의 특징 - 비정형 정보는 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터도 포함될 수 있다. - 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다. ② 비정형 데이터 관리 및 분석 의미 도출 - 정형 데이터는 데이터저장의 효율성 측면에서 사전에 정의된 규칙에 따라 저장, 관리되었으나 비정형의 경우는 규..

[2과목] 빅데이터 탐색 - 시공간데이터, 다변량 데이터

1. 시공간 데이터 기본적으로 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것을 지칭한다. ① 시간 데이터 기존 데이터는 어느 한 시점에 대한 스냅샷 정보이다. 그래서 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현을 정의한다. - 유효시간, 거래시간, 사용자 정의 시간, 스냅샷 데이터, 거래 시간 데이터, 유효 시간 데이터, 이원 시간 데이터 등 ② 공간 데이터 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 갖는 공간 데이터를 효율적으로 관리, 저장, 이용하는 데 초점을 맞춘다. - 비공간 타입, 래스터 공간 타입, 벡터 공간 타입, 기하학적 타입, 위상적 타입 등 ③ 공간 데이터 모델 - 관계형 모델 : 기존 정적 모델로 데이터의 ..

[2과목] 빅데이터 탐색 - 파생변수, 요약변수, 변수 변환

1. 파생변수(주관적 변수 개념) - 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미한다. - 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있다. - 특정상황에만 의미성 부여가 아닌 보편적이고 전 데이터구간에 대표성을 가지는 파생변수 생성을 위해서 노력해야 한다. - 세분화 고객행동예측, 캠페인반응예측 등에 활용할 수 있다. 2. 요약변수(단순 종합 개념) - 수집된 정보를 분석에 맞게 종합(aggregate)한 변수이다. - 데이터 마트에서 가장 기본적인 변수이다. - 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성이 높다. - 처리(단어의 빈도 초기행동변수 트렌드변수 등) 방법에 따라 결..

[2과목] 빅데이터 탐색 - 차원 축소

1. 자료의 차원 : 분석하는 데이터의 종류의 수를 의미한다. 2. 자원의 축소 : 자원의 축소는 어떤 목적에 다라서 변수(데이터의 종류)의 양을 줄이는 것이다. 3. 차원 축소의 필요성 ① 복잡도의 축소(Reduce Complexity) 데이터를 분석하는 데 있어서 분석시간의 증가(시간복잡도: Time Complexity)와 저장변수 양의 증가(공간복잡도 : Space Complexity)를 고려 시 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수를 줄여야 한다. ② 과적합(Overfit)의 방지 차원의 증가는 분석모델 파라메터의 증가 및 파라메터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성이 커진다. 작은 차원만으로 안정적인(robust) 결과를 도출해 낼 수 있다면 ..

[2과목] 빅데이터 탐색 - 분석변수처리

1. 변수 선택 통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 좋다. 하지만 분석모형을 구성하고 사용하는 데 지속적으로 필요 이상의 많은 데이터를 요구할 수 있다. 2. 회귀분석의 사례 예를 들어, 회귀모형에 의한 분석의 경우 최종 결과를 도출해 내기 위해서 사용된 독립 변수가 m개이고 이를 통해서 얻어진 설명력이 R2 = 89% 라고 했을 때, m보다 작은 n개만을 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가한다. ※ 회귀(regression) : 변수 x와 y의 관계를 함수식으로 설명하는 통계적 방법 1) 변수별 모형의 분류 ① 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형으로 정의한다. ② 축소 모형(RM :..

[2과목] 빅데이터 탐색 - 데이터의 정제, 결측값, 이상값

1. 데이터의 정제 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정이다. ① 데이터 정제의 과정(Processing) - 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요하다. - 시스템 내,외부에서 데이터를 수집하면 정형보다 비정형 데이터(Unstructured Data)들이 많다. 비정형 데이터의 경우 기본적으로 구조화된 정형 데이터(Structured Data)로의 변환을 수행하고 변환된 데이터에서 결측치나 오류의 수정 과정을 거친다. - 기존 시스템 내의 데이터와 비교분석이 필요한 경우 레거시(Legacy Data. 과거로부터 물려..

[2과목] 빅데이터 탐색 - 데이터의 종류

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 정확한 내용은 아래 링크를 참고하세요. https://cafe.naver.com/yjbooks/8352 [2과목] 빅데이터 탐색 - 데이터의 종류 1. 데이터의 정의 : 이론을 세우는 기초가 되는 사실 또는 자료를 지칭하며 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화·수치화한 자료를 말한다. 2. 데이터... cafe.naver.com 1. 데이터의 정의 : 이론을 세우는 기초가 되는 사실 또는 자료를 지칭하며 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화, 수치화한 자료를 말한다. ※ 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득 2. 데이터의 종류..