네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다.
정확한 내용은 아래 링크를 참고하세요.
https://cafe.naver.com/yjbooks/8256
1. 데이터 수집 및 적재 연계
- 적재할 데이터의 유형과 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장 시스템에 데이터를 적재할 수 있다.
- NoSQL DBMS가 제공하는 적재 도구와 Fluentd, Flume, Scribe, Log-stash 와 같은 데이터 수집 도구들을 이용하여 적재하는 방법들이 있다.
※ 많은 데이터 원천을 처리하고, 분산된 여러 서버에서 데이터를 수집하는 플랫폼과 저장 방법의 중요성이 점점 더 커지고 있다.
① 데이터 수집 도구를 이용한 데이터 적재
② NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재
③ 관계형 DBMS의 데이터를 NoSQL DBMS에서 적재
2. 데이터 저장
1) 빅데이터 저장시스템
대용량 데이터 집합을 저장하고 관리하는 시스템으로 사용자에게 데이터 제공 신뢰성과 가용성을 보장하는 시스템이다.
① 파일 시스템 저장방식
- 빅데이터 파일 시스템 저장방식은 저사양 서버들을 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션을 지원하며 사용자들에게 고성능 fault-toler-ance 환경을 제공하도록 구현되어 있다.
- 예) Apache HDFS(Hadoop Distributed File System), 구글의 GFS(Google File System) 등을 들 수 있다.
② 데이터베이스 저장방식
- 전통적인 관계형 데이터베이스 시스템을 이용하거나 NoSQL 데이터베이스 시스템을 이용하는 방식이 있다.
- NoSQL 데이터베이스는 대용량 데이터 저장 측면에서 봤을 때, 관계형 데이터베이스보다 수평적 확장성, 데이터 복제, 간편한 API 제공, 일관성 보장 등의 장점이 있다.
※ 데이터 모델에 따른 NoSQL 데이터베이스 분류
- key-value 데이터베이스
- Column-oriented 데이터베이스
- document 데이터베이스
2) 빅데이터 저장시스템 선정을 위한 분석
① 기능성 비교분석
- 데이터 모델
- 확장성
- 트랜잭션 일관성
- 질의 지원
- 접근성
② 분석방식 및 환경
③ 분석대상 데이터 유형
④ 기존 시스템과의 연계
※ 빅데이터 저장시스템을 선정할 때는 기존 시스템과의 연계성을 반드시 고려하여야 한다.