본문 바로가기

통계분석3

통계 분석 #8 : 교차 유효성 검사 Cross-Validation with R 교차 유효성 검사는 Cross Validation 이라고 합니다. 주어진 데이터의 일부를 학습시켜 모델을 생성하고 나머지 데이터는 모델을 검증하는데 사용합니다. 회귀 모델이나 머신러닝 모델을 만드는 목적은 예측에 있습니다. 모델을 생성하고 예측이 얼마나 잘 맞는지를 확인해야하는데, 일부의 데이터로 모델을 학습시키고 일부의 데이터는 학습될 모델을 검증하는데 사용한하면 예측의 정확도가 좋은 모델을 만들 수 있습니다. 한마디로, 데이터를 나눠서 모델을 만들고 검증하는 방법입니다. 통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준 with R통계 분석 #4 : 변수 간 인과관계, 회귀분석의 정의 및 단계 with R통계 분석 #5 : 집단 간 평균 비교, ANOVA 분산분석의 정의 및 가정통계 분석 #6 .. 2020. 3. 26.
통계 분석 #3 : 상관분석 정의, 상관계수 해석 기준 with R 상관분석의 정의두 데이터 간의 상관관계를 보는 상관분석은 통계분석, 데이터분석, 최적화와 같은 데이터 분석의 첫단에서 사용됩니다. 상관계수는 -1~+1 사이의 값으로 양의 상관관계이거나 음의 상관관계이거나 상관관계가 없다고 표현됩니다. - 상관분석 : 두 변수 간에 관계가 있는지를 알아보고자 할 때 실시하는 분석 방법- 상관관계 : 두 변수가 서로 관련성이 있다고 추측되는 관계- 상관계수(r) : 두 변수의 관련된 정도를 나타내주는 값 (Correlation : r) - 양의 상관관계 예시(r>0) : 지능지수와 성적, 키와 몸무게- 음의 상관관계 예시(r 2020. 3. 17.
통계 분석 #2 : 빅데이터 분석 및 활용 (데이터 저장, 처리, 분석, 시각화) 빅데이터 유형, 분석, 활용빅데이터는 데이터 형식에 따라 정형 데이터와 비정형 데이터로 나눌 수 있습니다. 물론, 정형 데이터와 비정형 데이터도 더 많은 데이터 형식으로 잘게 나눌 수 있습니다. 정형 데이터인지, 비정형 데이터인지에 따라 데이터 분석 기술이 다르게 적용됩니다. 결국 데이터를 분석하고 활용하는 이유는 수익실현을 위함입니다. 따라서, 빅데이터의 활용에서 시장을 예측함으로써 주식이나 비트코인의 가격을 예측하고 수익실현을 할 수 있습니다. 또한, 신제품/마케팅 전략의 활용도 결국 물건을 파는 행위이기 때문에 동일한 목적입니다. - 빅데이터 유형정형데이터 : 고객 데이터, 상품 판매 데이터비정형데이터 : SNS 활동 기록, 영상 정보, 위치 정보 - 빅데이터 분석정형데이터 : 데이터 마이닝, 회귀.. 2020. 3. 17.