본문 바로가기
Machine Learning

통계 분석 #1 : 가설 설정, 표본 추출, 확률 분포, 검정 통계량

by 무적물리 2020. 3. 16.

귀무가설과 대립가설

통계분석을 하기 위해서 기본이 되는 개념입니다. 통계분석이란 귀무가설과 대립가설을 확률적 지표인 유의확률 p-value와 유의 수준을 통해서 귀무가설의 채택 여부를 판단하는 과정입니다.


- 귀무가설(H0) : 보편적으로 참으로 믿어지는 가설

- 대립가설(H1) : 기존 주장에 반대되는 가설


- 제1종 오류(α) : 귀무가설이 참인데, 거짓으로 판단

- 제2종 오류(β) : 귀무가설이 거짓인데, 참으로 판단



모집단과 표본추출

엔지니어링을 하면서 모집단을 가지고 데이터마이닝을 할 수 없습니다. 당연히 표본이라는 것을 추출해야합니다. 표본을 추출하는 방법에는 확률적 방법과 비확률적 방법이 있는데, 추출 확률이 적용된 확률적 표본추출을 하는 것이 좋습니다.


- 모집단 : 특성을 알고자 하는, 연구 대상의 전체 집합

- 표본 : 모집단에 추출된 일부 집합

- 확률적 표본추출 : 추출 확률이 동일한 표본 추출 방법

- 비확률적 표본추출 : 추출 확률이 동일하지 않은 표본 추출 방법


확률분포

크게 세 가지의 확률분포를 나눌 수 있습니다. 여러 확률 분포가 있지만, 실제로 많이 사용하는 분포는 분명 있습니다. 따라서, 일단은 이러한 분포가 있다는 사실을 알아만 두는 것이 좋겠습니다.


- 이산분포 : 이항, 다항, 초기하 기하, 포아송, 베르누이 분포

- 연속분포 : 정규, 표준정규, 지수, 감마, 베타 분포

- 표본분포 : t, F, 카이제곱 분포


실제로 통계분석을 하기 위해서 각 분포에 맞는 통계적 검증 방법이 있습니다. 정확한 통계치를 얻기 위해서는 확률분포에 해당하는 통계분석 방법을 사용해야하지만, 비슷한 통계분석 방법을 적용해도 비슷한 결과가 도출됩니다. 큰 카테고리의 분포에 대한 설명은 아래 박스에서 설명하겠습니다.


<이산분포>

- 이항분포 : n 번의 독립성 시행에서 각 시행이 확률 p를 갖는 분포

- 포아송분포 : 단위 시간내에 사건의 발생 확률 분포

- 베르누이분포 : 실험 결과가 두가지일 때, 일정한 성공 확률을 갖는 분포


<연속분포>

- 정규분포 : 최대, 최소값 없이 무한대로 표현이 가능한 분포

- 표준정규분포 : 정규분포 중 평균0, 분산1의 분포 (Z분포)

- 중심극한정리 : 평균 μ, 분산 σ²의 모집단의 표본수 n이 충분히 커지면 평균 μ, 분산 σ²/n을 갖는 정규분포로 근사됨 (n>30)


<표본분포>

- T 분포 : 표본 크기가 30이하인 경우 두 집단간 평균차이 가설검정

- F 분포 : 비교집단이 3개 이상 시 분산분석에 사용되는 분포

- 카이제곱 분포 : 명목형 데이터의 관찰 빈도, 기대 빈도의 상관관계 검정


검정통계량

처음에 설명한 바와 같이 모든 통계분석은 검정의 반복입니다. 유의 확률이 유의 수준을 넘는지에 따라 귀무가설을 채택할지 여부를 판단하는 것이 통계분석의 기본 과정입니다. 아래의 박스에서 통계분석에 사용되는 검정통계량을 정리하겠습니다.


- 유의수준(α) : 가설 검증시 허용 가능한 1종 오류의 최대치

- 유의확률 (p-value): 표본의 결과가 귀무가설을 지지하는 정도의 확률


- 우측검정, 좌측검정 : α = 0.05

- 양측검정 : α/2 = 0.025


- p > α ; 귀무가설 채택

- p < α ; 귀무가설 기각, 대립가설 채택


댓글