비정형 데이터 2

[3과목] 고급 분석기법 - 비정형 데이터 분석

1. 비정형 데이터 비정형 데이터(Unstructured-Data)는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어 있다. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적인 비정형 데이터이다. - 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분할 수도 있지만, 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어렵다. ① 데이터 수집의 난이도 ② 데이터 처리의 아키텍쳐 ③ 데이터의 잠재적 가치 2. 비정형 데이터 분석 ① 비정형 데이터의 분석의 기본 원리 - 비정형 데이터의 내용 파악과 비정형 데이터 속 패턴(pattern) 발견을 위해 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 ..

[2과목] 빅데이터 탐색 - 비정형 데이터

1. 비정형 데이터 비정형 데이터(Unstructured Data, Unstructured Information, 비구조화 데이터, 비구조적 데이터)는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 말한다. ① 비정형 데이터의 특징 - 비정형 정보는 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터도 포함될 수 있다. - 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다. ② 비정형 데이터 관리 및 분석 의미 도출 - 정형 데이터는 데이터저장의 효율성 측면에서 사전에 정의된 규칙에 따라 저장, 관리되었으나 비정형의 경우는 규..