네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다.
정확한 내용은 아래 링크를 참고하세요.
https://cafe.naver.com/yjbooks/8352
1. 데이터의 정의
: 이론을 세우는 기초가 되는 사실 또는 자료를 지칭하며 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화, 수치화한 자료를 말한다.
※ 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득
2. 데이터의 종류
① 단변량자료(Univariate Data) : 자료의 특성을 대표하는 특성 변수가 하나인 자료이다.
② 다변량자료(Multivariate Data) : 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료이다.
③ 질적자료(Qualitative Data) : 정성적 자료라고도 하며 자료를 범주의 형태로 분류한다.
- 명목자료(Nominal Data) : 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료이다.
- 서열자료(Ordinal Data) : 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료이다.
④ 수치자료(Quantitative Data) : 수치의 크기에 의미를 부여할 수 있는 자료를 나타내며 구간자료, 비율자료가 여기에 속한다.
- 구간자료(Interval Data) : 명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수 간의 관계가 산술적인 의미를 가지는 자료이다.
- 비율자료(Ratio Data) : 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입할 수 있는 자료이다.
⑤ 시계열자료(Time Series Data) : 일정한 시간간격 동안에 수집된 자료이다.
⑥ 횡적자료(Cross Sectional Data) : 횡단면자료라고도 하며 특정 단일시점에서 여러 대상으로부터 수집된 자료이다. 즉 한 개의 시점에서 여러 대상으로부터 취합하는 자료를 말한다.
⑦ 종적자료(Longitudinal Data) : 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료이다.
※ 자료의 종류에 대한 파악이 중요한 이유는 수집된 자료의 특성에 따라서 해당자료로부터 결과를 도출하기 위한 적용방법론이 바뀌기 때문이다.