ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA)
안녕하세요 킬씨입니다.
3-5 다차원 척도법은 분량이 적어서 한꺼번에 올렸습니다.
글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.
https://killxxi.tistory.com/100
ㅇ 다차원척도법(Multidimensonal Scaling)
- 객체간 근접성을 시각화하는 통계기법
- 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법
- 개체들을 2차원 또는 3차원 공간상에 점으로 표현
- 유클리드 거리행렬을 활용
- 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준이하로 될 때까지 반복해서 수행
- STRESS = 0 : 완벽
STRESS < 0.05 : 매우 좋음
0.05 < STRESS < 0.10 : 만족
...
ㅇ 다차원척도법 종류
- 계량적 MDS(Metric MDS) : 데이터가 구간척도나 비율척도인 경우 활용
- 비계량적 MDS(nonmetric MDS) : 데이터가 순서척도인 경우 활용
# 유클리드는 두 점 사이의 거리로, 가장 직관적이고 일반적인 거리의 개념이다.
# 맨해튼 거리는 두 점의 좌표 간의 절댓값 차이를 구하는 것이다.
# 마할라노비스는 변수의 표준화를 고려하고, 변수 간의 상관성을 고려하지 않는다. (X)
# 표준화, 마할라노비스 거리는 통계쩍 거리의 개념이다.
ㅇ 주성분분석(Principal Component Analysis)
- 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
# 주성분분석은 독립변수들과 주성분과이 거리인 '정보손실량'을 최소화하거나 분산을 최대화한다.
# 동일한 주성분은 선형결합으로 이루어져 있다.
# 주성분 분석의 목적 중 하나는 데이터의 이해를 하기 위해서 차원 축소이다.
# 정규화 전후의 주성분 결과는 동일하다.(X)
# 가장 분산이 적은 것을 제1주성분으로 설정한다. (X)
# 주성분 분석은 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합을 해 변수를 축약하는데 사용하는 방법이다.
# 공분산 행렬을 사용하는 경우 고유값이 1보다 큰 주성분의 개수를 이용한다.
# 공분산행렬을 이용한 분석의 경우 변수들의 측정단위에 민감하다.
ㅇ 주성분분석 목적
- 여러 변수들 간의 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 만듦
- 다중공선성이 존재하는 경우, 상관성이 없는(적은) 주성분으로 변수들을 축소하여 모형 개발에 활용
ㅇ 주성분분석 vs 요인분석
- 요인분석 : 등간척도(or 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
- 공통점 : 모두 데이터를 축소하는데 활용
- 차이점
ㄴ 요인분석 : 몇 개 지정 없이 만들 수 있음 / 분석자가 요인의 이름을 명명 / 새 변수들은 기본적으로 대등한 관계, 분류-예측에 사용될 때 중요성의 의미가 부여 / 목표변수를 고려하지 않고 비슷한 특성들로 묶어 새로운 변수 생성
ㄴ 주성분분석 : 주로 제1주성분, 제2주성분, 제3주성분 정도로 활용 / 주로 제1주성분, 제2주성분 등으로 표현 / 제1주성분이 가장 중요하고 그 다음 제2주성분이 중요 / 목표 변수를 고려하여 잘 예측-분류하기 위해 몇 개의 주성분들을 찾아냄.
ㅇ 주성분 선택법
- 누적기여율(cumulative proportion)이 85% 이상이면 주성 분의 수로 결정
- scree plot을 활용하여 고유값이 수평을 유지하지 전단계로 주성분의 수 선택
ㅇ 주성분 분석 예
> library(datasets)
> data(USArrests)
> pairs(USArrests, panel = panel.smooth)
# Murder와 UrbanPop비율간의 관련성이 적음
> US_PCA <- princomp(USArrests, cor=TRUE)
> summary(US_PCA)
Importance of components:
# 제1주성분~제2주성분까지의 누적 분산비율이 약 86.8%로 2개의 주성분 변수를 활용하여 전체 데이터의 86.8%를 설명할 수 있음
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.5748783 0.9948694 0.5971291 0.41644938 # 표본 분산
Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752 # 변동비
Cumulative Proportion 0.6200604 0.8675017 0.9566425 1.00000000 # 누적 비율
> screeplot(US_PCA, npcs=4, type='lines') # 주성분들에 의해 설명되는 변동 비율 확인
> loadings(US_PCA)
Loadings: # 네 개의 변수가 각 주성분에 기여하는 가중치 제시
# 제1주성분에는 네 개의 변수가 평균적으로 기여, 제2주성분에서는 계수의 부호가 서로 다름
Comp.1 Comp.2 Comp.3 Comp.4
Murder 0.536 0.418 0.341 0.649
Assault 0.583 0.188 0.268 -0.743
UrbanPop 0.278 -0.873 0.378 0.134
Rape 0.543 -0.167 -0.818
Comp.1 Comp.2 Comp.3 Comp.4
SS loadings 1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00
> US_PCA$scores # 각 주성분의 선형식을 통해 각 지역별로 얻은 결과를 계산
Comp.1 Comp.2 Comp.3 Comp.4
Alabama 0.98556588 1.13339238 0.44426879 0.156267145
Alaska 1.95013775 1.07321326 -2.04000333 -0.438583440
Arizona 1.76316354 -0.74595678 -0.05478082 -0.834652924
Arkansas -0.14142029 1.11979678 -0.11457369 -0.182810896
California 2.52398013 -1.54293399 -0.59855680 -0.341996478
'Study of GifMan > ADSP' 카테고리의 다른 글
ADSP 기출문제 요약집 4-2 분류분석 (1) | 2020.04.28 |
---|---|
ADSP 기출문제 요약집 4-1 데이터마이닝의 개요 (1) | 2020.04.27 |
ADSP 기출문제 요약집 3-4 시계열 분석 (0) | 2020.04.21 |
ADSP 기출문제 요약집 3-3 회귀분석 (0) | 2020.04.19 |
ADSP 기출문제 요약집 3-2 기초 통계분석 (0) | 2020.04.18 |