ADSP 기출문제 요약집 3-3 회귀분석

Killxxi
Study of GifMan/ADSP
2020. 4. 19.

ADSP 기출문제 요약집 3-3 회귀분석

글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.

https://killxxi.tistory.com/100

ADSP 기출문제 요약집 공부방법 및 시험 후기

ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..

killxxi.tistory.com

ㅇ 회귀분석
- 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 변수들 사이의 인과관계를 밝힘

# 회귀분석에서 기울기가 0이 아닌 가정을 귀무가설, 0인 가정을 대립 가설로 한다.(X)

ㅇ 선형회귀분석의 가정
  - 선형성 : 입력 변수와 출력 변수의 관계가 선형
  - 등분산성 : 오차의 분산이 입력 변수와 무관하게 일정 (잔차(residuals)들의 변동성=분산)
  - 독립성 : 입력변수와 오차는 관련이 없음
  - 비상관성 : 오차들끼리 상관이 없음
  - 정상성(정규성) : 오차의 분포(잔차항)가 정규분포를 따름 (Q-Q plot을 사용하여 대각방향의 직선 형태를 지닐 경우)

# 잔차들간의 독립성 가정에 대한 검토는 더빗왓슨 통계량을 이용한다.
# 잔차의 정규성 검정은 Normal Q-Q 그래프를 통해 확인이 가능하다.

ㅇ 가정에 대한 검증
- 단순선형회귀분석 : 입력 변수와 출력 변수 간의 선형성을 점검하기 위해 산점도를 확인
- 다중선형회귀분석 : 선형 회귀분석의 가정인 선형성, 등분 산성, 독립성, 정상성이 모두 만족하는지 확인

ㅇ 단순선형회귀분석
- 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법

# 일반선형회귀는 종속변수가 연속형 변수일 때 가능하다.

ㅇ 회귀분석에서의 검토사항
  - 회귀계수들이 유의미한가? : 해당 계수의 t 통계량의 p-value
  - 모형이 얼마나 설명력을 갖는가? : 결정계수(R^2)를 확인, 0~1 값
  - 모형이 데이터를 잘 적합하고 있는가? : 잔차를 그래프로 그리고 회귀진단

ㅇ 회귀계수의 추정(최소제곱법, 최소 승자 법)
- 측정값을 기초 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정 결과를 처리하는 방법
- 잔차제곱이 가장 작은 선을 구하는 것

ㅇ 선형회귀분석 예
-----------------------------------------------------------------
> x <- c(19, 23, 26, 29, 30, 38, 39, 46, 49)
> y <- c(33, 51, 40, 49, 50, 69, 70, 64, 89)
> lm(y~x)
Coefficients:
(Intercept)            x
      6.409        1.529
-----------------------------------------------------------------
> summary(lm(y~x))
Residuals:
    Min      1Q  Median      3Q     Max
-12.766  -2.470  -1.764   4.470   9.412
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   6.4095     8.9272   0.718 0.496033
x             1.5295     0.2578   5.932 0.000581 ***
# x의 회귀계수인 t통계량(회귀계수의 추정치들이 통계적으로 유의)
# 회귀식 : 6.4095 + 1.5295 * x
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.542 on 7 degrees of freedom
Multiple R-squared:  0.8341,
# 결정계수(보통 80% 이상이면 데이터를 적절하게 설명)
Adjusted R-squared:  0.8104
F-statistic: 35.19 on 1 and 7 DF,  p-value: 0.0005805
-----------------------------------------------------------------

# data = Credit, Balances를 종속변수로 하는 회귀분석은?
-> Im(Balance~income+student,data=Credit) (O)

ㅇ 다중선형회귀분석
  - 모형의 통계적 유의성은 F-통계량으로 확인
  - 유의수준 5% 하에서 F-통계량의 p-value 값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있음
  - F-통계량이 크면 p-value가 0.05보다 작아지고 귀무가설을 기각. 모형이 유의하다고 결론

# 다중회귀모형의 통계적 유의성을 확인 방법은 F - 통계량을 확인한다.(O)

ㅇ 회귀계수의 유의성
- 단변량 회귀분석의 회귀계수 유의성 검토와 같이 t-통계량을 통해 확인
- 모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형 활용 가능

# 회귀계수의 유의성 검증은 t값과 p값을 통해 확인하다.

ㅇ 모형의 설명력
- 결정계수(R^2)나 수정된 결정계수를 확인

# 결정계수는 총 변동과 오차에 대한 변동 비율이다. (X)
# 결정계수가 커질수록 회귀 방정식의 설명력이 높아진다.
# 결정계수는 0~1 사이의 범위를 갖는다.

ㅇ 모형의 적합성
- 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인

# 회귀분석의 모형 검정은 F-test, t-test이다.

ㅇ 다중공선성
  - 다중회귀분석에서 설명변수들 사이에 선형 관계가 존재하면 회귀계수의 정확한 추정이 곤란
  - 다중공선성 검사 방법
     ㄴ 분산팽창요인(VIF) : 4보다 크면 다중공선성이 존재, 10보다 크면 심각한 문제
     ㄴ 상태지수 : 10 이상이면 문제, 30보다 크면 심각한 문제
  - 문제가 있는 변수를 제거하거나 주성분 회귀, 능형 회귀 모형을 적용하여 다중 공선 성 문제 해결 필요

ㅇ 회귀 분석의 종류
  - 단순회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선
  - 다중회귀 : 독립변수가 k개이며 종속변수와의 관계가 선형(1차 함수)
  - 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우에 적용
  - 다항회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
  - 곡선회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
  - 비선형회귀 : 회귀식의 모양이 미지의 모수들의 선형 관계로 이뤄져 있지 않은 모형

# 로지스틱 회귀분석의 모형 탐색 방법은 최대우도법이다.

ㅇ 다중회귀분석 예
-----------------------------------------------------------------
> lm(Price~EngineSize+RPM+Weight, data=Cars93)
Coefficients:
(Intercept)   EngineSize          RPM       Weight
-51.793292     4.305387     0.007096     0.007271
>summary(lm(Price~EngineSize+RPM+Weight, data=Cars93))
Call:
lm(formula = Price ~ EngineSize + RPM + Weight, data = Cars93)
Residuals:
    Min      1Q  Median      3Q     Max
-10.511  -3.806  -0.300   1.447  35.255
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -51.793292   9.106309  -5.688 1.62e-07 ***
EngineSize    4.305387   1.324961   3.249  0.00163 **
RPM       0.007096   0.001363   5.208 1.22e-06 ***
Weight        0.007271   0.002157   3.372  0.00111 **
# 회귀계수의 추정치들이 통계적으로 유의
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’
Residual standard error: 6.504 on 89 degrees of freedom
Multiple R-squared:  0.5614,

-----------------------------------------------------------------

# 결정계수 (낮게 나타나 이 회귀식이 데이터를 적절하게 설명하고 있다고 볼 수 없음)
Adjusted R-squared:  0.5467 # 수정된 결정계수
F-statistic: 37.98 on 3 and 89 DF,  # F-통계량
p-value: 6.746e-16  # 유의 수준 5% 하에서 추정된 회귀 모형이 통계적으로 매우 유의
# 결정계수가 낮아 데이터의 설명력은 낮지만 회귀분석 결과에서 회귀식과 회귀계수들이 통계적으로 유의
# 자동차 가격을 엔진의 크기와 RPM 그리고 무게로 추정 가능

ㅇ 로지스틱 회귀분석 예
-----------------------------------------------------------------
> m <- glm(r~., data=data, family='binomial')
> summary(m)
Call:
glm(formula = r ~ ., family = "binomial", data = data)
Deviance Residuals:
    Min       1Q   Median       3Q      Max
-2.1231  -0.6620  -0.3039   0.4710   2.4892
Coefficients:
Estimate Std. Error z value Pr(>|z|)
# 회귀계수의 추정치들이 통계적으로 유의
(Intercept)  -3.0518     0.8420  -3.624  0.00029 ***
stage         1.6453     0.7297   2.255  0.02414 *
xray          1.9116     0.7771   2.460  0.01390 *
acid          1.6378     0.7539   2.172  0.02983 *
--------------------------------------------------------------------

# 선형식 : p(r=1)=1/(1+e-(-3.0518+1.6453stage+1.9116xray+1.6378acid))
AIC: 57.18

ㅇ 최적회귀방정식의 선택
  - 설명변수 선택 : 필요한 변수만 상황에 따라 타협을 통해 선택, y에 영향을 미칠 수 있는 모든 설명변수 x들은 y의 값을 예측하는데 참여, 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함
  - 모형 선택 : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법
    ㄴ 모든 가능한 조합의 회귀분석 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀 모형을 선택
  - 단계적 변수선택
    ㄴ 전진선택법(foward selection) : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
    ㄴ 후진제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택
    ㄴ 단계선택법(stepwise method) : 전진 선택법과 후진 제거법을 조합한 방법으로 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단

# 다음은 다중회귀의 어떤 단계적 변수선택에 관한 설명인가?
[독립변수 후보 모두를 포함한 모형에서 출발해 제곱 합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하고, 이때의 모형을 선택한다.]
후진 제거법
#  회귀모형의 변수 선택법
주성분 분석 (X), 모든 회귀분석, LASSO, 단계별 변수 선택

ㅇ 벌점화된 선택 기준
- 모형의 복잡도에 벌점을 주는 방법, AIC(Akaike information criterion) 방법와 BIC(Bayesian information criterion) 방법이 주로 사용
- 모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값이 최소가 되는 모형을 선택

저작자표시 비영리 변경금지

'Study of GifMan > ADSP' 카테고리의 다른 글

ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA) (0)	2020.04.26
ADSP 기출문제 요약집 3-4 시계열 분석 (0)	2020.04.21
ADSP 기출문제 요약집 3-2 기초 통계분석 (0)	2020.04.18
ADSP 기출문제 요약집 3-1 통계분석의 이해 (0)	2020.04.17
ADSP 기출문제 요약집 2-2 분석 마스터 플랜 (2)	2020.04.16

Sidebar - Right

블로그 정보

Killxxi

킬씨의 일상, 리뷰, IT 등의 다양성을 담고있습니다. 정말 정성을 다하는 리뷰 맛집이 되도록 노력하겠다. 재미와 정보를 동시에 담는 고퀄리티 리뷰를 위해 열심히 노력하겠습니다. 감사합니다.

글쟁이 킬씨