본문 바로가기

Machine Learning47

통계 분석 #7 : 회귀모델 적합도 평가 방법 with R (잔차, 결정계수, F, T) 앞서 회귀모델 만드는 방법에 대한 포스팅의 연장선에서 회귀 모델 적합도를 평가하는 방법에 대해 여러분과 공유하고자 합니다. 회귀모델 적합도 평가는 말 그대로 회귀 모델이 얼마나 잘 생성되었는지를 통계량으로 평가하는 방법입니다. 즉, 모델이 예측력이 얼마나 되는지 평가하는 방법입니다. 평가 방법에는 다양한 통계량이 사용되는데, 이번 포스팅에서 관련 통계량을 공유하며, R을 이용해 실습해보겠습니다. [추천글] 통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준[추천글] 통계 분석 #4 : 변수 간 인과관계, 회귀분석의 정의 및 단계[추천글] 통계 분석 #5 : 집단 간 평균 비교, ANOVA 분산분석의 정의[추천글] 통계 분석 #6 : 범주형 자료 분류 방법, 로지스틱 회귀분석 회귀 모델 적합도 평가 방.. 2020. 3. 25.
통계 분석 #6 : 범주형 자료 분류 방법, 로지스틱 회귀분석 with R 로지스틱 회귀분석이란?분석하고자 하는 대상들이 두집단 or 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단으로 분류될 수 있는지를 판단하는 분석 방법입니다. 독립변수는 연속형, 범주형 자료로 분석이 가능하며, 종속변수는 오직 범주형 자료만 분석 가능합니다. 보통은 연속형 자료와 범주형 자료를 묶어서 로지스틱 회귀분석이라고 칭하며, 범주형과 범주형의 조합은 카이검정으로 표현합니다. - 독립변수 : 연속형 자료, 범주형 자료- 종속변수 : 범주형 자료 - 이항형 로지스틱 회귀 : 종속변수 2개- 다항형 로지스틱 회귀 : 종속변수 3개 이상 위 그림과 같이 X축이 독립변수이고 Y축이 확률이라고 가정한다면, 선 아래쪽은 0일 확률, 선 위쪽은 1일 확률로 연속형 자료에 대해 범주형으로 분류 예측이.. 2020. 3. 22.
통계 분석 #5 : 집단 간 평균 비교, ANOVA 분산분석의 정의 및 가정 분산분석 이란?두 개 이상의 집단의 평균을 비교하여 집단의 평균 차이가 있는지를 통계적으로 분석하는 기법을 분산분석이라고 정의합니다. 예를 들면 약을 섭취한 집단과 섭취하지 않은 집단의 몸무게 차이를 비교하여 약이 몸무게에 영향을 줬는지에 대해 비교 할 수 있습니다. - 분산분석 : 두 개 이상 집단들의 평균을 비교하는 통계적 분석 기법- 분산분석 이유 : 집단들의 평균 차이 비교- t검정 : 두집단 강의 평균 차이를 검증- F검정 : 집단간 변화량과 집단내 변화량을 이용하여 세집단 이상을 비교 집단 간 평균 차이 = 집단 간 분산이 크다 → 집단간 분산이 클수록 집단 간 평균이 서로 다를 가능성이 높다. 통계 분석 #1 : 가설 설정, 표본 추출, 확률 분포, 검정 통계량통계 분석 #2 : 빅데이터 분.. 2020. 3. 19.
통계 분석 #4 : 변수 간 인과관계, 회귀분석의 정의 및 단계 with R 회귀분석이란?회귀분석은 독립변수가 종속변수에 어느정도의 영향을 미치는지 확인하는 분석방법입니다. 회귀분석의 어원은 19세기의 우생학자가 발견한 현상에서 기인합니다. 부모의 키가 커지면 커질수록 자식의 키도 증가할 것이라고 예상했지만, 실제로는 평균키로 회귀한다는 뜻에서 '회귀(Regression)' 라는 이름이 붙었습니다. 통계 분석 #1 : 가설 설정, 표본 추출, 확률 분포, 검정 통계량통계 분석 #2 : 빅데이터 분석 및 활용 (데이터 저장, 처리, 분석, 시각화)통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준 with R 회귀분석에는 두가지 형태의 변수가 있는데, 독립변수와 종속변수 입니다. 독립변수는 설정값이며, 종속변수는 반응 값과 결과 값으로 나누어집니다. 반은 값은 최적화 문제에 제.. 2020. 3. 19.
통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준 with R 상관분석의 정의두 데이터 간의 상관관계를 보는 상관분석은 통계분석, 데이터분석, 최적화와 같은 데이터 분석의 첫단에서 사용됩니다. 상관계수는 -1~+1 사이의 값으로 양의 상관관계이거나 음의 상관관계이거나 상관관계가 없다고 표현됩니다. - 상관분석 : 두 변수 간에 관계가 있는지를 알아보고자 할 때 실시하는 분석 방법- 상관관계 : 두 변수가 서로 관련성이 있다고 추측되는 관계- 상관계수(r) : 두 변수의 관련된 정도를 나타내주는 값 (Correlation : r) - 양의 상관관계 예시(r>0) : 지능지수와 성적, 키와 몸무게- 음의 상관관계 예시(r 2020. 3. 17.
통계 분석 #2 : 빅데이터 분석 및 활용 (데이터 저장, 처리, 분석, 시각화) 빅데이터 유형, 분석, 활용빅데이터는 데이터 형식에 따라 정형 데이터와 비정형 데이터로 나눌 수 있습니다. 물론, 정형 데이터와 비정형 데이터도 더 많은 데이터 형식으로 잘게 나눌 수 있습니다. 정형 데이터인지, 비정형 데이터인지에 따라 데이터 분석 기술이 다르게 적용됩니다. 결국 데이터를 분석하고 활용하는 이유는 수익실현을 위함입니다. 따라서, 빅데이터의 활용에서 시장을 예측함으로써 주식이나 비트코인의 가격을 예측하고 수익실현을 할 수 있습니다. 또한, 신제품/마케팅 전략의 활용도 결국 물건을 파는 행위이기 때문에 동일한 목적입니다. - 빅데이터 유형정형데이터 : 고객 데이터, 상품 판매 데이터비정형데이터 : SNS 활동 기록, 영상 정보, 위치 정보 - 빅데이터 분석정형데이터 : 데이터 마이닝, 회귀.. 2020. 3. 17.
통계 분석 #1 : 가설 설정, 표본 추출, 확률 분포, 검정 통계량 귀무가설과 대립가설통계분석을 하기 위해서 기본이 되는 개념입니다. 통계분석이란 귀무가설과 대립가설을 확률적 지표인 유의확률 p-value와 유의 수준을 통해서 귀무가설의 채택 여부를 판단하는 과정입니다. - 귀무가설(H0) : 보편적으로 참으로 믿어지는 가설- 대립가설(H1) : 기존 주장에 반대되는 가설 - 제1종 오류(α) : 귀무가설이 참인데, 거짓으로 판단- 제2종 오류(β) : 귀무가설이 거짓인데, 참으로 판단 모집단과 표본추출엔지니어링을 하면서 모집단을 가지고 데이터마이닝을 할 수 없습니다. 당연히 표본이라는 것을 추출해야합니다. 표본을 추출하는 방법에는 확률적 방법과 비확률적 방법이 있는데, 추출 확률이 적용된 확률적 표본추출을 하는 것이 좋습니다. - 모집단 : 특성을 알고자 하는, 연구 .. 2020. 3. 16.