1. 비정형 데이터
비정형 데이터(Unstructured Data, Unstructured Information, 비구조화 데이터, 비구조적 데이터)는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 말한다.
① 비정형 데이터의 특징
- 비정형 정보는 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터도 포함될 수 있다.
- 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다.
② 비정형 데이터 관리 및 분석 의미 도출
- 정형 데이터는 데이터저장의 효율성 측면에서 사전에 정의된 규칙에 따라 저장, 관리되었으나 비정형의 경우는 규격화의 어려움이 있어 저장, 관리의 어려움이 있다.
- 정형 데이터에 비해 차지하는 저장 공간이 넓다.
- 정형화되지 않은 데이터로 분석이 용이하지 않은 부분이 있다.
2. 비정형 데이터의 분석
① 데이터 마이닝(Data Mining) : 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정이다.
- 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.
- 군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾는다. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다.
- 연관성(Association) : 동시에 발생한 사건 간의 관계를 정의한다.
- 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다. 기간의 특성을 제외하면 연관성 분석과 유사하다.
- 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다.
② 텍스트 마이닝(Text Mining)
전통적인 데이터 마이닝의 한계를 벗어난 방법으로 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리(Natural Language Processing) 방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법이다.
③ 오피니언 마이닝(Opinion Mining) : 오피니언 마이닝은 텍스트 마이닝의 한 분류로서, 특정 주제에 대한 사람들의 주관적 의견을 통계, 수치과해 객관적 정보로 바꾸는 빅데이터 분석 기술이다.
- 텍스트 마이닝은 문장 내 주제를 파악하고 오피니언 마이닝은 감정, 뉘앙스, 태도 등을 판별한다는 차이가 있다. 이 때문에 감정 분석(Sentiment Analysis)이라고도 불린다.
④ 웹 마이닝(Web Mining)
웹 마이닝 또는 웹 데이터 마이닝은 일반적으로 웹으로 통한 모든 것을 분석하여 도출해 내는 것을 지칭한다.
※ 웹 마이닝의 유형
- 웹구조 마이닝(Web Structure Mining) : 웹 사이트로부터 구조적 요약정보를 추출하는 것이다.
- 웹내용 마이닝(Web Contents Mining) : 웹사이트 또는 페이지로부터 의미 있는 내용을 추출하는 것을 말한다.
- 웹사용 마이닝(Web Usage Mining) : 웹상의 사용자의 행동 등 패턴으로부터 통찰을 이끌어 내는 방법을 말한다.
네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다.
정확한 내용은 아래 링크를 참고하세요.
https://cafe.naver.com/yjbooks/8655