ADSP 기출문제 요약집 4-4 인공신경망 분석
- Study of GifMan/ADSP
- 2020. 4. 30.
ADSP 기출문제 요약집 4-4 인공신경망 분석
글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.
https://killxxi.tistory.com/100
ㅇ 인공신경망
- 인간의 뇌를 기반으로 한 추론 모델
- 뉴런은 기본적인 정보처리 단위
# 인공신경망은 분석사의 주관과 경험에 따른다.
ㅇ 인간의 뇌
- 빠르고, 매우 복잡하고, 비선형적이며 병렬적인 정보 처리 시스템과 같음
- 잘못된 답에 대한 뉴런들 사이의 연결은 약화, 올바른 답에 대한 연결이 강화
- 뉴런은 가중치가 있는 링크들로 연결
- 뉴런은 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성
ㅇ 인공신경망의 학습
- 가중치를 반복적으로 조정하며 학습
- 뉴런은 링크로 연결되어 있고 각 링크에는 수치적인 가중치가 있음
# 인공신경망은 역전파 알고리즘 동일 입력층에 대한 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용된다.
# 인공신경망은 이상치 잡음에 민감하지 않다.
# 다층신경망은 단층신경망에 비해 훈련이 어렵다.
# 은닉층 노드의 수가 너무 적으면 네트워크가 복잡한 의사결정 경계를 만들 수 없다.
# 은닉층 노드의 수가 너무 많으면 일반화가 어렵다.
# 은닉층의 수와 은닉노드 수의 결정은 자동으로 설정된다. (X)
# 은닉층가 은닉 노드가 많아면 과대 적합 , 적으면 가소적합
# 가중치가 0 이면 선형 모델이 된다.
# 훈련자료에 bagging을 적용하여 최종 예측지를 선정한다.
# 신경망에서 가중치의 절대값이 커져 조정이 더 이상 힘든 과소적합이 발생하는 문제? --> 3) 포화문제 (상)
ㅇ 뉴런의 활성화 함수
ㄴ 시그모이드(sigmoid) 함수 : 로지스틱 회귀분석과 유사, 0~1의 확률값
ㄴ softmax 함수 : 표준화지수 함수, 출력값이 여러개 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공
ㄴ Relu 함수 : 입력값이 0이하는 0, 0이상은 x값을 가지는 함수, 딥러닝에 많이 활용
# 인공신경망은 입력변수의 속성에 따라 활성화 함수의 선택이 달라진다. (X)
ㅇ 로지스틱 회귀분석(Logistic Regression)
- 반응변수가 범주형인 경우 적용되는 회귀분석모형
- 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지 추정
- 추정 확률을 기준치에 따라 분류하는 목적으로 활용
- exp(beta)의 의미는 나머지 변수가 주어질 때, x1이 한 단위 증가할 때마다 성공(Y=1)의 오즈(odds)가 몇 배 증가하는지 나타내는 값
- 다중로지스틱 회귀모형에서 설명변수가 한 개인 경우 해당 회귀 계수 beta의 부호에 따라 S자 모양(B>0), 역S자 모양(B<0)
- 오즈비(odds ratio) : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 확률
# 단답 . 로지스틱 회귀모형에서 exp(x1)의 의미는 나머지 변수가 주어질 때 x1이 한 단위 증가할 때마다 성공(Y=1)의 ( )가 몇 배 증가하는지를 나타낸다. - Odds
ㅇ 선형회귀분석 vs 로지스틱회귀분석 (종속변수, 계수 추정법, 모형 검정)
- 선형회귀분석 : 연속형 변수, 최소제곱법, F-검정, T-검정
- 로지스틱회귀분석 : (0,1), 최대우도추정법, 카이제곱 검정
ㅇ 로지스틱 회귀분석
-----------------------------------------------------------------
> lr <- glm(Species ~ Sepal.Length, data=iris, family=binomial)
# 종속변수 : Species, 독립변수 : Sepal.Length
> summary(lr)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -27.8285 4.8276 -5.765 8.19e-09 ***
Sepal.Length 5.1757 0.8934 5.793 6.90e-09 ***
---
# Sepal.Length가 한 단위 증가함에 따라 Species(Y)가 1에서 2로 바뀔 때 오즈(odds)가 exp(5.176)=176배 증가
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Null deviance: 190.954 on 149 degrees of freedom # 절편만 포함하는 모형의 완전 모형으로부터의 이탈도
Residual deviance: 71.836 on 148 degrees of freedom # Sepal.Length가 추가된 적합 모형의 이탈도
AIC: 75.836
'Study of GifMan > ADSP' 카테고리의 다른 글
ADSP 기출문제 요약집 4-5 군집분석 (0) | 2020.05.01 |
---|---|
ADSP 기출문제 요약집 4-3 앙상블분석 (1) | 2020.04.29 |
ADSP 기출문제 요약집 4-2 분류분석 (1) | 2020.04.28 |
ADSP 기출문제 요약집 4-1 데이터마이닝의 개요 (1) | 2020.04.27 |
ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA) (0) | 2020.04.26 |