IT/빅데이터분석기사

[2과목] 통계기법의 이해 - 기술통계, 표본추출

김비서 2021. 8. 23. 20:57
728x90

1. 기술통계(Descriptive Statistics)

분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법을 말한다. 분석을 위해서 단순히 데이터를 정리하는 행위 자체는 의미가 없다. 분석 전 데이터의 특성을 찾아내서 그 특성의 정량화를 통한 체계적 요약이 필요하다.

 

※ 기술통계의 종류

① 데이터의 중심화 경향(Central Tendency) : 관찰 또는 수집된 데이터의 물리적 상대적 위치에 대한 정리 요약이다.

② 분산도 경향(Degree of Dispersion) : 데이터들이 흩어진 정도에 대한 기술 및 요약이다.

③ 비대칭도(Shape of Distribution, Skewness) : 자료의 분포가 대칭인지 치우쳐 있는지에 대한 기술 및 요약이다.

 

 

2. 표본추출

* 모집단(Population) : 연구, 실험의 결과가 일반화된 큰 집단, 정보를 얻고자 하는 관심 대상의 전체집합으로 정의한다.

* 표본(Sample) : 여러 자료를 포함하는 모집단 속에서 그 일부를 끄집어 내어 조사한 결과로 원래 집단의 성질을 추측할 수 있는 자료로 정의한다.

* 표본추출(Sampling) : 모집단으로부터 표본을 선택하는 행위(과정)를 말한다.

※ 모집단(Population)은 우리가 무엇을 알려고 하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의해야 한다.

 

1) 전수조사와 표본조사

① 전수조사 : 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것이다. (ex 인구조사 등)

② 표본조사 : 관심의 대상이 되는 모집단에서 표본을 추출하여 포본을 대상으로 조사를 시행하는 것이다.

 

 

2) 표본추출 오차(Sampling Bias, Sampling Error)

표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생한다.

 

① 과잉 대표 : 중복선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상을 지칭한다.

② 최소 대표 : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상이다.

※ 표본 추출시 표본의 크기(Sample Size) 보다는 대표성을 가지는 표본을 추출하는 것이 중요하다.

 

 

3) 표본추출 기법

① 단순무작위 추출(Simple Random Sampling)

- 모집단으로부터 무작위(randomly) 추출하고 독립적 선택으로 편향성(bias)을 제거하여 난수(Random Number)를 이용하는 추출 방법이다.

- 추출 모집단에 대해 사전지식이 많지 않은 경우 시행하는 방법이다.

 

② 계통추출(Systematic Sampling)

- 모집단에서 추출간경(Sampling Interval)을 설정 간격 사이에서 무작위로 추출하는 방법이다.

- 만일 전체 모집단이 N개인 집단에서 k (단, k < N)라는 추출간격으로 뽑는다면 N/K 수만큼 표본이 선택될 수 있다. (1/K 계통추출법)

 

③ 층화추출(Stratified Sampling)

- 모집단을 서로 겹치지 않게 여러 층(strata)으로 나누어 분할된 층(stratum) 별로 배정된 표본을 단순 임의 추출법에 따라 추출하는 방법이다.

- 각 집단별 분석이 필요한 분석의 경우나 모집단 전체에 대한 특성치의 효율적 추정(추론)이 필요한 경우 시행한다.

 

④ 군집추출(Cluster Sampling)

- 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위의 일부 또는 전체에 대한 분석을 시행한다.

- 모집단에 대한 추출기반을 마련하기가 어려운 경우 사용하면 편리하다.

- 표본크기가 같은 경우 단순 임의추출에 비해 표본 오차가 증대할 가능성이 있다.

 

 

 

네이버 카페 "이기적스터디카페" 빅데이터 분석기사 - 핵심 요약집을 참고하였습니다. 
정확한 내용은 아래 링크를 참고하세요. 

 

https://cafe.naver.com/yjbooks/8702

 

[2과목] 기술통계의 종류

기술통계(Descriptive Statistics)란? 분석에 필요한 데이터를 요약하여 묘사· 설명하는 통계기법을 말한다. 분석을 위해서 단순히 데이터를 정리하는 행위 자체는...

cafe.naver.com

 

https://cafe.naver.com/yjbooks/8797

 

[2과목] 표본추출

표본추출 •모집단(Population) : 연구·실험의 결과가 일반화된 큰 집단, 정보를 얻고자 하 는 관심 대상의 전체집합으로 정의한다. •표본(Sample) : 여러 자료...

cafe.naver.com

 

반응형