IT/빅데이터분석기사

[3과목] 고급 분석기법 - 비정형 데이터 분석

김비서 2021. 9. 12. 20:37
728x90

1. 비정형 데이터

비정형 데이터(Unstructured-Data)는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어 있다. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적인 비정형 데이터이다.

- 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분할 수도 있지만, 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어렵다.

 

① 데이터 수집의 난이도

데이터 수집의 난이도 [출처 : 이기적스터디카페]

 

② 데이터 처리의 아키텍쳐

데이터 처리의 아키텍쳐 [출처 : 이기적스터디카페]

 

③ 데이터의 잠재적 가치

데이터의 잠재적 가치 [출처 : 이기적스터디카페]

 

 

2. 비정형 데이터 분석

① 비정형 데이터의 분석의 기본 원리

- 비정형 데이터의 내용 파악과 비정형 데이터 속 패턴(pattern) 발견을 위해 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 다양한 기법을 사용한다.

- 비정형 데이터를 정련 과정을 통해 정형데이터로 만든 후, 분류, 군집화, 회귀분석, 요약, 이상감지 분석 등의 데이터 마이닝을 통해 의미있는 정보를 발굴한다.

 

② 데이터 마이닝(Data Mining)

데이터 마이닝은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견, Knowledge-Discovery in Databases)라고도 일컫는다.

 

[적용분야]

- 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.

- 군집화(Clustering) : 구체적인 특성을 공유하는 군집을 찾는다. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다.

- 연관성(Association) : 동시에 발생한 사건간의 관계를 정의한다.

- 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명한다. 기간의 특성을 제외하면 연관성 분석과 유사하다.

- 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다.

 

기본적으로 전통적인 데이터 마이닝 기법은 비정형데이터를 정형화하는 기반하에서 상식적 범위에서 부분적인 데이터를 다룬다는 한계가 존재한다.

 

③ 텍스트 마이닝(Text Mining)

전통적인 데이터 마이닝의 한계를 벗어난 방법으로 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법이다.

텍스트 마이닝의 개념 [출처 : 이기적스터디카페]

 

④ 웹 마이닝(Web Mining)

데이터 마이닝 기술의 응용분야로 인터넷을 통해 웹자원으로부터 의미있는 패턴, 프로파일, 추세 등을 발견하는 것이다.

 

⑤ 오피니언 마이닝(Opinion Mining)

어떤 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하로 추축하는 것을 말한다.

 

⑥ 리얼리티 마이닝(Reality Mining)

사람들이 매일 사용하는 스마트폰 등의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법을 말한다.

반응형