본문 바로가기
Machine Learning

통계 분석 #4 : 변수 간 인과관계, 회귀분석의 정의 및 단계 with R

by 무적물리 2020. 3. 19.

회귀분석이란?

회귀분석은 독립변수가 종속변수에 어느정도의 영향을 미치는지 확인하는 분석방법입니다. 회귀분석의 어원은 19세기의 우생학자가 발견한 현상에서 기인합니다. 부모의 키가 커지면 커질수록 자식의 키도 증가할 것이라고 예상했지만, 실제로는 평균키로 회귀한다는 뜻에서 '회귀(Regression)' 라는 이름이 붙었습니다.




회귀분석에는 두가지 형태의 변수가 있는데, 독립변수와 종속변수 입니다. 독립변수는 설정값이며, 종속변수는 반응 값과 결과 값으로 나누어집니다. 반은 값은 최적화 문제에 제한 조건을 설정할 때 보통 사용되며, 결과 값은 최적화 문제를 최대화 or 최소화 or 값 일치의 목적에 대해 사용됩니다.


- 회귀분석 : 독립변수가 종속변수에 영향을 미치는 정도 분석

- 독립변수 : 실험 또는 연구에 영향을 미치는 원인 변수

- 종속변수 : 변수에 의한 반응이나 결과를 나타내는 변수


회귀분석 단계

독립변수의 수에 따라 변수가 1개이면 단순 회귀분석, 2개 이상이면 다중 회귀분석으로 분류됩니다. 또한, 독립변수와 종속변수의 관계가 선형이면 선형 회귀분석, 비선형이면 비선형 회귀분석으로 불립니다.


선형회귀식 도출 → 회귀식의 설명력 → 회귀분석의 가정 → 선형회귀 분석과의 비교


회귀선

회귀선은 두 변수간의 연관도를 분석하기 위해 사용됩니다. 상관계수의 절대 값이 1에 가까울수록 강한 선형관계를 갖으며, 기울기가 클수록 두 변수간의 선형적 관련성을 나타냅니다.



회귀함수 중 가장 단순한 형태는 선형회귀식 입니다. 이는 기울기와 절편으로 이루어져 있으며, 최소제곱법을 통해 기울기와 절편을 계산합니다. 회귀식이 얼만큼의 설명력을 가지고 있는지는 상관계수, 결정계수, 기울기 등으로 평가합니다.


- 회귀식 : y = a + bx (y: 종속변수, a: 절편, b: 기울기, x: 독립변수)

- 최소제곱법 : 회귀선과 관측값들의 잔차를 제곱하여 더한 값으로 회귀식 계산

- 설명력의 지표 : 피어슨 상관계수, 회귀선의 기울기, 결정계수, 수정된 R²



상관분석 vs 회귀분석

상관분석과 회귀분석의 공통점은 변수간의 관계성을 검증한다는 것입니다. 차이점은 상관분석은 변수 간의 관계여부를 검증하지만, 회귀분석은 변수 간의 인과관계를 검증한다는 것입니다.


- 상관분석 : 변수 간 관계여부 검증

- 회귀분석 : 변수 간 인과관계 검증


R을 이용한 회귀분석

근속연수와 연봉과의 선형 회귀식을 구하는 예제입니다. 아래의 예제를 통해서 간단하게 선형회귀를 확인할 수 있습니다. R의 함수에서 cor(data) 함수로 상관계수를 추출할 수 있으며, lm() 함수로 회귀분석을 실시할 수 있습니다. 참고로, lm은 Linear Model의 약자입니다.


# Data 입력

year=c(26,16,20,7,22,15,29,28,17,3,1,16,19,13,27,4,30,8,3,12)

annual_salary=c(1267,887,1022,511,1193,795,1713,1477,991,455,324,944,1232,808,1296,486,1516,565,299,830)


# 두 데이터 합치기 

Data=data.frame(year,annual_salary)


# 데이터 정보 표시 

summary(Data)


# 그래프 만들기 

plot(year, annual_salary)


# 상관계수 구하기 

cor(year, annual_salary)


# Linear Model 회귀 분석 실시 

LS=lm(annual_salary~year, data=Data)

summary(LS)

plot(year, annual_salary) 


댓글