본문 바로가기

R7

통계 분석 #11 : 군집분석의 개념, 유형, 종류선택 with R (k-means clustering) 군집분석 이란?군집분석은 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 것을 말합니다. 군집화 혹은 군집분석이라고 말하는 분석 방법은 대상 개체를 유사하거나 서로 관련있는 항목끼리 묶어서 몇 개의 집단으로 그룹화하거나, 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자하는 탐색적 분석방법 입니다. 통계 분석 #7 : 회귀모델 적합도 평가 방법 with R 통계 분석 #8 : 교차 유효성 검사 Cross-Validation with R통계 분석 #9 : 혼동행렬 개념 및 성능 평가 방법 with R 통계 분석 #10 : 머신러닝 분류회귀, ROC 곡선의 개념 군집분석의 특징군집 분석은 종속변수에 대한 독립변수의 영향과 같이 사전에 정의된 특수한 목적이 없으며, 데이터 자체에 .. 2020. 3. 29.
통계 분석 #9 : 혼동행렬 개념 및 성능 평가 방법 with R (Confusion Matrix) 컨퓨전 매트릭스 개념컨퓨전 매트릭스란, 머신러닝 or 통계학적 방법이 사용된 분류 모델에서 알고리즘의 성능을 보기 쉽게 시각화하는 테이블 형태의 레이아웃 입니다. 분류 모델에 의한 분류 예측이 실제와 같은지 다른지를 표시하고 이를 평가하는 방법입니다. 컨퓨전 매트릭스는 혼동행렬이라고도 불리며 모델을 만들 때 모델이 얼마나 정확한 결과를 계산하는지 객관적으로 측정할 수 있습니다. 통계 분석 #5 : 집단 간 평균 비교, ANOVA 분산분석의 정의 및 가정통계 분석 #6 : 범주형 자료 분류 방법, 로지스틱 회귀분석 with R통계 분석 #7 : 회귀모델 적합도 평가 방법 with R (잔차, 결정계수, F, T)통계 분석 #8 : 교차 유효성 검사 Cross-Validation with R 컨퓨전 매트릭스.. 2020. 3. 28.
통계 분석 #8 : 교차 유효성 검사 Cross-Validation with R 교차 유효성 검사는 Cross Validation 이라고 합니다. 주어진 데이터의 일부를 학습시켜 모델을 생성하고 나머지 데이터는 모델을 검증하는데 사용합니다. 회귀 모델이나 머신러닝 모델을 만드는 목적은 예측에 있습니다. 모델을 생성하고 예측이 얼마나 잘 맞는지를 확인해야하는데, 일부의 데이터로 모델을 학습시키고 일부의 데이터는 학습될 모델을 검증하는데 사용한하면 예측의 정확도가 좋은 모델을 만들 수 있습니다. 한마디로, 데이터를 나눠서 모델을 만들고 검증하는 방법입니다. 통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준 with R통계 분석 #4 : 변수 간 인과관계, 회귀분석의 정의 및 단계 with R통계 분석 #5 : 집단 간 평균 비교, ANOVA 분산분석의 정의 및 가정통계 분석 #6 .. 2020. 3. 26.
통계 분석 #6 : 범주형 자료 분류 방법, 로지스틱 회귀분석 with R 로지스틱 회귀분석이란?분석하고자 하는 대상들이 두집단 or 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단으로 분류될 수 있는지를 판단하는 분석 방법입니다. 독립변수는 연속형, 범주형 자료로 분석이 가능하며, 종속변수는 오직 범주형 자료만 분석 가능합니다. 보통은 연속형 자료와 범주형 자료를 묶어서 로지스틱 회귀분석이라고 칭하며, 범주형과 범주형의 조합은 카이검정으로 표현합니다. - 독립변수 : 연속형 자료, 범주형 자료- 종속변수 : 범주형 자료 - 이항형 로지스틱 회귀 : 종속변수 2개- 다항형 로지스틱 회귀 : 종속변수 3개 이상 위 그림과 같이 X축이 독립변수이고 Y축이 확률이라고 가정한다면, 선 아래쪽은 0일 확률, 선 위쪽은 1일 확률로 연속형 자료에 대해 범주형으로 분류 예측이.. 2020. 3. 22.
통계 분석 #5 : 집단 간 평균 비교, ANOVA 분산분석의 정의 및 가정 분산분석 이란?두 개 이상의 집단의 평균을 비교하여 집단의 평균 차이가 있는지를 통계적으로 분석하는 기법을 분산분석이라고 정의합니다. 예를 들면 약을 섭취한 집단과 섭취하지 않은 집단의 몸무게 차이를 비교하여 약이 몸무게에 영향을 줬는지에 대해 비교 할 수 있습니다. - 분산분석 : 두 개 이상 집단들의 평균을 비교하는 통계적 분석 기법- 분산분석 이유 : 집단들의 평균 차이 비교- t검정 : 두집단 강의 평균 차이를 검증- F검정 : 집단간 변화량과 집단내 변화량을 이용하여 세집단 이상을 비교 집단 간 평균 차이 = 집단 간 분산이 크다 → 집단간 분산이 클수록 집단 간 평균이 서로 다를 가능성이 높다. 통계 분석 #1 : 가설 설정, 표본 추출, 확률 분포, 검정 통계량통계 분석 #2 : 빅데이터 분.. 2020. 3. 19.
통계 분석 #4 : 변수 간 인과관계, 회귀분석의 정의 및 단계 with R 회귀분석이란?회귀분석은 독립변수가 종속변수에 어느정도의 영향을 미치는지 확인하는 분석방법입니다. 회귀분석의 어원은 19세기의 우생학자가 발견한 현상에서 기인합니다. 부모의 키가 커지면 커질수록 자식의 키도 증가할 것이라고 예상했지만, 실제로는 평균키로 회귀한다는 뜻에서 '회귀(Regression)' 라는 이름이 붙었습니다. 통계 분석 #1 : 가설 설정, 표본 추출, 확률 분포, 검정 통계량통계 분석 #2 : 빅데이터 분석 및 활용 (데이터 저장, 처리, 분석, 시각화)통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준 with R 회귀분석에는 두가지 형태의 변수가 있는데, 독립변수와 종속변수 입니다. 독립변수는 설정값이며, 종속변수는 반응 값과 결과 값으로 나누어집니다. 반은 값은 최적화 문제에 제.. 2020. 3. 19.
통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준 with R 상관분석의 정의두 데이터 간의 상관관계를 보는 상관분석은 통계분석, 데이터분석, 최적화와 같은 데이터 분석의 첫단에서 사용됩니다. 상관계수는 -1~+1 사이의 값으로 양의 상관관계이거나 음의 상관관계이거나 상관관계가 없다고 표현됩니다. - 상관분석 : 두 변수 간에 관계가 있는지를 알아보고자 할 때 실시하는 분석 방법- 상관관계 : 두 변수가 서로 관련성이 있다고 추측되는 관계- 상관계수(r) : 두 변수의 관련된 정도를 나타내주는 값 (Correlation : r) - 양의 상관관계 예시(r>0) : 지능지수와 성적, 키와 몸무게- 음의 상관관계 예시(r 2020. 3. 17.