ADSP 기출문제 요약집 3-3 회귀분석
- Study of GifMan/ADSP
- 2020. 4. 19.
ADSP 기출문제 요약집 3-3 회귀분석
글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.
https://killxxi.tistory.com/100
ㅇ 회귀분석
- 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 변수들 사이의 인과관계를 밝힘
# 회귀분석에서 기울기가 0이 아닌 가정을 귀무가설, 0인 가정을 대립 가설로 한다.(X)
ㅇ 선형회귀분석의 가정
- 선형성 : 입력 변수와 출력 변수의 관계가 선형
- 등분산성 : 오차의 분산이 입력 변수와 무관하게 일정 (잔차(residuals)들의 변동성=분산)
- 독립성 : 입력변수와 오차는 관련이 없음
- 비상관성 : 오차들끼리 상관이 없음
- 정상성(정규성) : 오차의 분포(잔차항)가 정규분포를 따름 (Q-Q plot을 사용하여 대각방향의 직선 형태를 지닐 경우)
# 잔차들간의 독립성 가정에 대한 검토는 더빗왓슨 통계량을 이용한다.
# 잔차의 정규성 검정은 Normal Q-Q 그래프를 통해 확인이 가능하다.
ㅇ 가정에 대한 검증
- 단순선형회귀분석 : 입력 변수와 출력 변수 간의 선형성을 점검하기 위해 산점도를 확인
- 다중선형회귀분석 : 선형 회귀분석의 가정인 선형성, 등분 산성, 독립성, 정상성이 모두 만족하는지 확인
ㅇ 단순선형회귀분석
- 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법
# 일반선형회귀는 종속변수가 연속형 변수일 때 가능하다.
ㅇ 회귀분석에서의 검토사항
- 회귀계수들이 유의미한가? : 해당 계수의 t 통계량의 p-value
- 모형이 얼마나 설명력을 갖는가? : 결정계수(R^2)를 확인, 0~1 값
- 모형이 데이터를 잘 적합하고 있는가? : 잔차를 그래프로 그리고 회귀진단
ㅇ 회귀계수의 추정(최소제곱법, 최소 승자 법)
- 측정값을 기초 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정 결과를 처리하는 방법
- 잔차제곱이 가장 작은 선을 구하는 것
ㅇ 선형회귀분석 예
-----------------------------------------------------------------
> x <- c(19, 23, 26, 29, 30, 38, 39, 46, 49)
> y <- c(33, 51, 40, 49, 50, 69, 70, 64, 89)
> lm(y~x)
Coefficients:
(Intercept) x
6.409 1.529
-----------------------------------------------------------------
> summary(lm(y~x))
Residuals:
Min 1Q Median 3Q Max
-12.766 -2.470 -1.764 4.470 9.412
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.4095 8.9272 0.718 0.496033
x 1.5295 0.2578 5.932 0.000581 ***
# x의 회귀계수인 t통계량(회귀계수의 추정치들이 통계적으로 유의)
# 회귀식 : 6.4095 + 1.5295 * x
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.542 on 7 degrees of freedom
Multiple R-squared: 0.8341,
# 결정계수(보통 80% 이상이면 데이터를 적절하게 설명)
Adjusted R-squared: 0.8104
F-statistic: 35.19 on 1 and 7 DF, p-value: 0.0005805
-----------------------------------------------------------------
# data = Credit, Balances를 종속변수로 하는 회귀분석은?
-> Im(Balance~income+student,data=Credit) (O)
ㅇ 다중선형회귀분석
- 모형의 통계적 유의성은 F-통계량으로 확인
- 유의수준 5% 하에서 F-통계량의 p-value 값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있음
- F-통계량이 크면 p-value가 0.05보다 작아지고 귀무가설을 기각. 모형이 유의하다고 결론
# 다중회귀모형의 통계적 유의성을 확인 방법은 F - 통계량을 확인한다.(O)
ㅇ 회귀계수의 유의성
- 단변량 회귀분석의 회귀계수 유의성 검토와 같이 t-통계량을 통해 확인
- 모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형 활용 가능
# 회귀계수의 유의성 검증은 t값과 p값을 통해 확인하다.
ㅇ 모형의 설명력
- 결정계수(R^2)나 수정된 결정계수를 확인
# 결정계수는 총 변동과 오차에 대한 변동 비율이다. (X)
# 결정계수가 커질수록 회귀 방정식의 설명력이 높아진다.
# 결정계수는 0~1 사이의 범위를 갖는다.
ㅇ 모형의 적합성
- 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인
# 회귀분석의 모형 검정은 F-test, t-test이다.
ㅇ 다중공선성
- 다중회귀분석에서 설명변수들 사이에 선형 관계가 존재하면 회귀계수의 정확한 추정이 곤란
- 다중공선성 검사 방법
ㄴ 분산팽창요인(VIF) : 4보다 크면 다중공선성이 존재, 10보다 크면 심각한 문제
ㄴ 상태지수 : 10 이상이면 문제, 30보다 크면 심각한 문제
- 문제가 있는 변수를 제거하거나 주성분 회귀, 능형 회귀 모형을 적용하여 다중 공선 성 문제 해결 필요
ㅇ 회귀 분석의 종류
- 단순회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선
- 다중회귀 : 독립변수가 k개이며 종속변수와의 관계가 선형(1차 함수)
- 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우에 적용
- 다항회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
- 곡선회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
- 비선형회귀 : 회귀식의 모양이 미지의 모수들의 선형 관계로 이뤄져 있지 않은 모형
# 로지스틱 회귀분석의 모형 탐색 방법은 최대우도법이다.
ㅇ 다중회귀분석 예
-----------------------------------------------------------------
> lm(Price~EngineSize+RPM+Weight, data=Cars93)
Coefficients:
(Intercept) EngineSize RPM Weight
-51.793292 4.305387 0.007096 0.007271
>summary(lm(Price~EngineSize+RPM+Weight, data=Cars93))
Call:
lm(formula = Price ~ EngineSize + RPM + Weight, data = Cars93)
Residuals:
Min 1Q Median 3Q Max
-10.511 -3.806 -0.300 1.447 35.255
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -51.793292 9.106309 -5.688 1.62e-07 ***
EngineSize 4.305387 1.324961 3.249 0.00163 **
RPM 0.007096 0.001363 5.208 1.22e-06 ***
Weight 0.007271 0.002157 3.372 0.00111 **
# 회귀계수의 추정치들이 통계적으로 유의
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’
Residual standard error: 6.504 on 89 degrees of freedom
Multiple R-squared: 0.5614,
-----------------------------------------------------------------
# 결정계수 (낮게 나타나 이 회귀식이 데이터를 적절하게 설명하고 있다고 볼 수 없음)
Adjusted R-squared: 0.5467 # 수정된 결정계수
F-statistic: 37.98 on 3 and 89 DF, # F-통계량
p-value: 6.746e-16 # 유의 수준 5% 하에서 추정된 회귀 모형이 통계적으로 매우 유의
# 결정계수가 낮아 데이터의 설명력은 낮지만 회귀분석 결과에서 회귀식과 회귀계수들이 통계적으로 유의
# 자동차 가격을 엔진의 크기와 RPM 그리고 무게로 추정 가능
ㅇ 로지스틱 회귀분석 예
-----------------------------------------------------------------
> m <- glm(r~., data=data, family='binomial')
> summary(m)
Call:
glm(formula = r ~ ., family = "binomial", data = data)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.1231 -0.6620 -0.3039 0.4710 2.4892
Coefficients:
Estimate Std. Error z value Pr(>|z|)
# 회귀계수의 추정치들이 통계적으로 유의
(Intercept) -3.0518 0.8420 -3.624 0.00029 ***
stage 1.6453 0.7297 2.255 0.02414 *
xray 1.9116 0.7771 2.460 0.01390 *
acid 1.6378 0.7539 2.172 0.02983 *
--------------------------------------------------------------------
# 선형식 : p(r=1)=1/(1+e-(-3.0518+1.6453stage+1.9116xray+1.6378acid))
AIC: 57.18
ㅇ 최적회귀방정식의 선택
- 설명변수 선택 : 필요한 변수만 상황에 따라 타협을 통해 선택, y에 영향을 미칠 수 있는 모든 설명변수 x들은 y의 값을 예측하는데 참여, 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함
- 모형 선택 : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법
ㄴ 모든 가능한 조합의 회귀분석 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀 모형을 선택
- 단계적 변수선택
ㄴ 전진선택법(foward selection) : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
ㄴ 후진제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택
ㄴ 단계선택법(stepwise method) : 전진 선택법과 후진 제거법을 조합한 방법으로 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단
# 다음은 다중회귀의 어떤 단계적 변수선택에 관한 설명인가?
[독립변수 후보 모두를 포함한 모형에서 출발해 제곱 합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하고, 이때의 모형을 선택한다.]
후진 제거법
# 회귀모형의 변수 선택법
주성분 분석 (X), 모든 회귀분석, LASSO, 단계별 변수 선택
ㅇ 벌점화된 선택 기준
- 모형의 복잡도에 벌점을 주는 방법, AIC(Akaike information criterion) 방법와 BIC(Bayesian information criterion) 방법이 주로 사용
- 모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값이 최소가 되는 모형을 선택
'Study of GifMan > ADSP' 카테고리의 다른 글
ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA) (0) | 2020.04.26 |
---|---|
ADSP 기출문제 요약집 3-4 시계열 분석 (0) | 2020.04.21 |
ADSP 기출문제 요약집 3-2 기초 통계분석 (0) | 2020.04.18 |
ADSP 기출문제 요약집 3-1 통계분석의 이해 (0) | 2020.04.17 |
ADSP 기출문제 요약집 2-2 분석 마스터 플랜 (2) | 2020.04.16 |