본문 바로가기
Machine Learning

ML #5 : 머신러닝 데이터 샘플링 방법과 필요성 (확률적, 비확률적 샘플링)

by 무적물리 2020. 4. 7.

데이터 샘플링 필요성

머신러닝에서 입력 데이터가 많아지면 처리 속도가 느려지게 됩니다. 그렇기 때문에 머신러닝의 처리 속도를 빠르게 하기 위해서 대표되는 데이터로 최적화한 후에 머신러닝을 수행한다면 머신러닝의 학습 속도가 빨라집니다. 그렇다면 어떻게 해야 필요한 데이터만 사용할 수 있도록 데이터를 축소할 수 있는지 알아보겠습니다.




데이터 샘플링이란?

데이터를 일부 정리해서 최적의 입력 데이터로 만드는 과정입니다. 데이터 샘플링을 예로 들자면 한 피자집의 작년 수익을 분석하기 위해 '일' 단위의 매출을 사용하는 것보다는 '월' 단위의 매출을 사용함으로써 머신러닝의 처리 속도를 빠르게 해줄 수 있습니다. 이와 같이 최적의 데이터를 만들에 내는 작업이 필요합니다.


데이터 샘플링 방법에는 확률적 샘플링, 비확률적 샘플링 방법이 있습니다. 확률적 샘플링 방법은 통계에 기반한 샘플링 방법이며, 비확률적 샘플링은 샘플링하는 사람의 주관이 개입된 샘플링 방법입니다. 각 샘플링 방법에 따라 장, 단점이 존재하기 때문에 데이터와 상황에 맞는 샘플링 방법을 선택하여 활용하는 것이 좋습니다.


데이터 샘플링 방법 : 확률적 샘플링

데이터 샘플링 방법 중 하나로, 확률적 샘플링 방법이 있습니다. 이는, 무작위로 샘플링 하는 방법인데 단순 랜덤 샘플링, 2단계 샘플링, 층별 샘플링, 군집/집락 샘플링, 계통 샘플링으로 나눌 수 있습니다. 아래에서 하나씩 설명해보도록 하겠습니다.


# 단순 랜덤 샘플링

전체 데이터에서 무작위로 샘플을 추출하는 방법입니다.


# 2단계 샘플링

전체 n개의 데이터를 m개의 하위 모집단으로 분리하는 샘플링 방법입니다. m개의 하위 모집단을 선택하고, m개의 하위 모집단 중에서 N개의 데이터를 단순랜덤샘플링을 해줍니다. 단순 랜덤 샘플링 보다는 정확한 샘플링 방법입니다.


# 층별 샘플링

모집단을 여러개의 층으로 구분함으로써, 각 층에서 n개씩 랜덤하게 데이터를 추출하는 방법입니다. 예를 들면, 한국 시, 도로 층을 나누고 층마다 데이터를 n개 추출하는 방법입니다.


# 군집/집락 샘플링

모집단이 여러개의 군집으로 구성되어 있는 경우에, 군집 중 하나 or 여러개의 군집을 선정해서 선정된 군집의 전체 데이터를 사용하는 방법입니다. 예를 들면, 한국의 시, 도를 정해서 해당 데이터를 모두 사용하는 방법입니다.


# 계통 샘플링

1에서 n까지 모든 데이터에 번호를 매겨서 일정 간격마다 하나씩 데이터를 추출하는 방법입니다. 이 방법은 시계열 데이터의 대표값을 샘플링하는데 주로 사용합니다.



데이터 샘플링 방법 : 비확률적 샘플링

사전에 표본으로 선정되는 확률을 모르는 상태에서 주관적으로 추출하는 방법입니다. 이 샘플링의 장점이자 단점은 샘플링하는 사람의 주관적인 의도가 개입되어 있다는 것입니다. 비확률적 샘플링으로 추출되는 암시적 모집단은 주제와 가장 적합한 모집단인 이상적 모집단과 일치해야 좋은 샘플링 입니다. 비확률적 샘플링 방법에는 편의 샘플링, 판단 샘플링, 할당 샘플링 방법이 있습니다.


# 편의 샘플링 (Convenience Sampling)

데이터를 수집하기 좋은 시점이나 위치를 선정하여 샘플링하는 방법입니다. 이러한 샘플링 방법으로 조사된 표본은 모집단에 비해 대표성이 떨어진다는 단점이 있습니다. 또한, 통계적 추론 과정을 거칠 수 없습니다. 통계적 추론이란, 표본 분석 결과를 모집단에 대한 추측으로 일반화한다는 것입니다.


# 판단 샘플링 (Purpose Sampling)

목적에 가장 적합한 대상이라고 생각하는 대상을 선택하는 방법입니다. 주관적으로 목적에 적합한 데이터를 샘플링하게됩니다. 이 방법 또한 단점은 모집단에 대한 대표성이 떨어진다는 점입니다.


# 할당 샘플링 (Quota Sampling)

모집단을 세그먼트로 구분하여 각 세그먼트에 표본 수를 나타내는 쿼타를 할당하게 됩니다. 세그먼트 내에서는 주제과 관련된 특성이 비슷해야하며 세그먼트 사이에는 거로 다르게 모집단을 나누어줘야 합니다. 이는 층별 샘플링과 방법론에서는 유사합니다. 하지만, 표본이 확률에 따라 선택되지 않고, 주관적 판단에 의해 선택되는 것이 다른 점입니다.


마무리

확률적 샘플링과 비확률적 샘플링을 비교하자면 단어로 판단했을때는 확률적 샘플링이 좋아보일 수도 있습니다. 하지만 통계 기반 분석이 가능한 데이터에 대해서는 확률적 샘플링을 유리하고, 언어나 음악과 같은 데이터에 대해서는 비확률적 샘플링이 유리합니다. 이처럼, 확률적 샘플링 방법과 비확률적 샘플링 방법을 적절히 선택해서 사용하는 것이 좋겠습니다.


댓글