IT/빅데이터분석기사

[2과목] 빅데이터 탐색 - 파생변수, 요약변수, 변수 변환

김비서 2021. 8. 22. 16:28
728x90

1. 파생변수(주관적 변수 개념)

- 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미한다.

- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있다.

- 특정상황에만 의미성 부여가 아닌 보편적이고 전 데이터구간에 대표성을 가지는 파생변수 생성을 위해서 노력해야 한다.

- 세분화 고객행동예측, 캠페인반응예측 등에 활용할 수 있다.

 

 

2. 요약변수(단순 종합 개념)

- 수집된 정보를 분석에 맞게 종합(aggregate)한 변수이다.

- 데이터 마트에서 가장 기본적인 변수이다.

- 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성이 높다. 

- 처리(단어의 빈도 초기행동변수 트렌드변수 등) 방법에 따라 결측치의 처리 및 이상값 처리에 유의해야 한다. 

- 연속형 변수의 구간화 적용과 고정된 구간화를 통한 의미 파악시 정구간이 아닌 의미 있는 구간을 찾도록 해야 한다.

 

 

3. 변수 변환

데이터를 분석하기 좋은 형태로 바꾸는 작업을 말한다. 수학적 의미로 변환(transformation)은 기존의 변수공간에서는 해결하거나 관찰할 수 없는 사실을 영역을 달리 하는 것으로 (변환) 해석이 용이해지거나 취급이 단순해지는 장점이 있다.

- 데이터의 전처리 과정(Data Preprocessing) 중 하나로 간주된다. 

 

1) 변수 변환의 방법

① 범주형 변환

예) '소득이 100만원 늘 때마다 사교육비의 지출이 10만원 증가한다.' 보다는 '상위 10% 소득가정의 사교육비 지출이 하위 10%보다 10배 많다.' 식의 설명이 이해가 쉽다.

 

② 정규화

분석을 정확히 하려면 원래 주어진 연속형(이산형) 데이터 값을 바로 사용하기 보다는 정규화를 이용하는 경우가 타당할 수 있다. 

특히, 데이터가 가진 스케일이 심하게 차이나는 경우 그 차이를 그대로 반영하기 보다는 상대적 특성이 반영된 데이터로 변환하는 것이 필요하다.

 

- 일반 정규화

- 최소-최대 정규화(Min-Max Normalization)

- Z-점수(Z-Score) 정규화

 

③ 로그변환(Log Transformation)

로그변환이란 어떤 수치 값을 그대로 사용하지 않고 여기에 로그를 취한 값을 사용하는 것을 말한다. 

예) 국가별 수출액, 사람의 통증 정도 수치화, 개별 주식의 가격이용 변동성 분석 등이 있다.

* 데이터분포의 형태가 우측으로 치우친 경우 정규분포화를 위해 로그변환을 사용한다.

 

④ 역수변환(Inverse Transformation)

어떤 변수를 데이터 분석에 그대로 사용하지 않고 역수를 사용하면 오히려 선형적인 특성을 가지게 되어 의미를 해석하기가 쉬워지는 경우를 말한다.

* 데이터분포의 형태가 극단적인 우측으로 치우친 경우 정규분포화를 위해 역수변환을 사용한다.

 

⑤ 지수변환(Power Transformation)

어떤 변수를 데이터 분석에 그대로 사용하지 않고 지수를 사용하면 오히려 선형적인 특성을 가지게 되어 의미를 해석하기가 쉬워지는 경우를 말한다.

* 데이터분포의 형태가 좌측으로 치우친 경우 정규분포화를 위해 지수변환을 사용한다.

 

⑥ 제곱근변환(Square Root Transformation)

어떤 변수를 데이터 분석에 그대로 사용하지 않고 제곱근을 사용하면 오히려 선형적인 특성을 가지게 되어 의미를 해석하기가 쉬워지는 경우를 말한다.

* 데이터분포의 형태가 좌축으로 약간 치우친 경우 정규분포화를 위해 제곱근변환을 사용한다.

 

⑦ 분포형태별 정규분포 변환

모집단의 분포형태별로 사용가능한 변수변환이 다르다. 최종적으로 정규분포 형태를 지향한다.

 

 

4. 불균형 데이터 처리

어떤 데이터에서 각 클래스(주로 범주형 반응 변수)가 갖고 있는 데이터의 양에 차이가 큰 경우, 클래스 불균형이 있다고 말한다. 

 

1) 불균형 데이터의 문제점

데이터 클래스 비율이 너무 차이가 나면(Highly-imbalanced Data) 단순히 우세한 클래스를 택하는 모형의 정확도가 높아지므로 모형의 성능판별이 어려워진다. 즉, 정확도(accuracy)가 높아도 데이터 개수가 적은 클래스의 재현율(recall-rate)이 급격히 작아지는 현상이 발생할 수 있다.

 

정확도, 재현율 [출처 : 이기적 빅데이터분석기사 필기]

 

 

2) 불균형 데이터의 처리 방법

① 가중치 균형방법(Weighted Balancing)

데이터 클래스의 균형이 필요한 경우로 각 클래스별 특정 비율로 가중치를 주어서 분석하거나 결과를 도출하는 것으로 정의한다.

  - 고정 비율 이용

  - 최적 비율 이용

 

② 언더샘플링(Undersampling)과 오버샘플링(Oversampling)

비대침 데이터는 다수 클래스 데이터에서 일부만 사용하는 언더샘플링이나 소수 클래스 데이터를 증가시키는 오버샘플링을 사용하여 데이터 비율을 맞추면 정밀도(precision)가 향상된다.

  - 언더샘플링

  - 오버샘플링

반응형