IT/빅데이터분석기사

[1과목] 빅데이터의 이해 - 빅데이터 플랫폼

김비서 2021. 8. 16. 16:06
728x90

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

 

https://cafe.naver.com/yjbooks/7823

 

[1과목] 빅데이터의 이해 - 빅데이터 플랫폼

1. 빅데이터 플랫폼이란? 빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경이다. ...

cafe.naver.com

 

1. 빅데이터 플랫폼이란?

빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경이다.

 

2. 빅데이터 플랫폼의 기능

빅데이터를 처리하는 과정에서 부하 발생은 불가피하며, 빅데이터 플랫폼은 이러한 부하들을 기술적인 요소들을 결합하여 해소한다. 

 

※ 부하 발생 종류

① 컴퓨팅 부하 발생

- CPU, GPU, 메모리 등을 사용하며 부하가 발생

- CPU 성능 향상 및 클러스터에서의 효과적인 자원 할당을 통해 부하를 제어할 수 있다.

 

② 저장 부하 발생

- 입력 데이터, 중간 가공 데이터, 출력 데이터 등 여러 단계에서 부하가 발생

- 파일 시스템 개선, 메모리와 파일 시스템의 효과적인 사용 및 데이터베이스 성능 향상으로 제어할 수 있다.

 

③ 네트워크 부하 발생

- 분산처리를 하고자 할 때 노드 간의 통신 과정에서 부하가 발생

- 빅데이터 플랫폼을 통한 대역폭의 효과적 분배 및 네트워크 상에서 최단거리에 위치한 노드를 탐색하여 제어할 수 있다.

 

 

3. 빅데이터 처리 과정

데이터(생성)  →  수집  →  저장(공유)  →  처리  →  분석  →  시각화

※ 단계별로 어떤 과정이 진행되는지 이해해야 한다. 

 

① 생성

- 내부 데이터 (데이터베이스나 파일 관리 시스템 등)

- 외부 데이터 (인터넷으로 연결된 외부로부터 생성된 파일이나 데이터)

 

② 수집

- 크롤링을 통해 데이터 원천으로부터 데이터를 검색하여 수집한다. 

  ※ 크롤링 : 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술

- ETL을 통해 소스 데이터로부터 추출(Extract), 변환(Transform), 적재(Load)한다.

  ※ ETL : 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 데이터 웨어하우스에 적재하는 과정

- 로그 수집기나 센서 네트워크 및 Open API 등을 활용할 수 있다.

 

③ 저장(공유)

- 저렴한 비용으로 데이터를 쉽고 빠르게 많이 저장한다.

- 정형, 반정형, 비정형 데이터 포함

- 병렬 DBMS, 하둡(Hadoop), NoSQL 등 다양한 기술을 사용

- 시스템 간의 데이터를 서로 공유 가능하다.

 

④ 처리

- 데이터를 효과적으로 처리하는 기술이 필요한 단계

- 분산 병렬 및 인 메모리(In-Memory) 방식으로 실시간 처리

- 하둡(Hadoop)의 맵리듀스(MapReduce)를 활용할 수 있다.

 

⑤ 분석

- 데이터를 신속하고 정확하게 분석하여 비즈니스에 기여한다.

- 통계분석, 데이터 마이닝, 텍스트 마이닝, 기계학습 방법 등이 있다.

 

⑥ 시각화

- 처리 및 분석 결과를 표, 그래프 등을 이용해 쉽게 표현하고 탐색이나 해석에 활용한다.

- 정보 시각화 기술, 시각화 도구, 편집 기술, 실시간 자료 시각화 기술로 구성되어 있다. 

반응형