ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA)

Killxxi
Study of GifMan/ADSP
2020. 4. 26.

ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA)

안녕하세요 킬씨입니다.

3-5 다차원 척도법은 분량이 적어서 한꺼번에 올렸습니다.

글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.

https://killxxi.tistory.com/100

ADSP 기출문제 요약집 공부방법 및 시험 후기

ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..

killxxi.tistory.com

ㅇ 다차원척도법(Multidimensonal Scaling)

  - 객체간 근접성을 시각화하는 통계기법
  - 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법
  - 개체들을 2차원 또는 3차원 공간상에 점으로 표현
  - 유클리드 거리행렬을 활용
  - 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준이하로 될 때까지 반복해서 수행
  - STRESS = 0 : 완벽
    STRESS < 0.05 : 매우 좋음
    0.05 < STRESS < 0.10 : 만족
    ...

ㅇ 다차원척도법 종류

- 계량적 MDS(Metric MDS) : 데이터가 구간척도나 비율척도인 경우 활용
- 비계량적 MDS(nonmetric MDS) : 데이터가 순서척도인 경우 활용

# 유클리드는 두 점 사이의 거리로, 가장 직관적이고 일반적인 거리의 개념이다.
# 맨해튼 거리는 두 점의 좌표 간의 절댓값 차이를 구하는 것이다.
# 마할라노비스는 변수의 표준화를 고려하고, 변수 간의 상관성을 고려하지 않는다. (X)
# 표준화, 마할라노비스 거리는 통계쩍 거리의 개념이다.

ㅇ 주성분분석(Principal Component Analysis)

- 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

# 주성분분석은 독립변수들과 주성분과이 거리인 '정보손실량'을 최소화하거나 분산을 최대화한다.
# 동일한 주성분은 선형결합으로 이루어져 있다.
# 주성분 분석의 목적 중 하나는 데이터의 이해를 하기 위해서 차원 축소이다.
# 정규화 전후의 주성분 결과는 동일하다.(X)
# 가장 분산이 적은 것을 제1주성분으로 설정한다. (X)
# 주성분 분석은 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합을 해 변수를 축약하는데 사용하는 방법이다.
# 공분산 행렬을 사용하는 경우 고유값이 1보다 큰 주성분의 개수를 이용한다.
# 공분산행렬을 이용한 분석의 경우 변수들의 측정단위에 민감하다.

ㅇ 주성분분석 목적

- 여러 변수들 간의 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 만듦
- 다중공선성이 존재하는 경우, 상관성이 없는(적은) 주성분으로 변수들을 축소하여 모형 개발에 활용

ㅇ 주성분분석 vs 요인분석

  - 요인분석 : 등간척도(or 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
  - 공통점 : 모두 데이터를 축소하는데 활용
  - 차이점
    ㄴ 요인분석 : 몇 개 지정 없이 만들 수 있음 / 분석자가 요인의 이름을 명명 / 새 변수들은 기본적으로 대등한 관계, 분류-예측에 사용될 때 중요성의 의미가 부여 / 목표변수를 고려하지 않고 비슷한 특성들로 묶어 새로운 변수 생성
    ㄴ 주성분분석 : 주로 제1주성분, 제2주성분, 제3주성분 정도로 활용 / 주로 제1주성분, 제2주성분 등으로 표현 / 제1주성분이 가장 중요하고 그 다음 제2주성분이 중요 / 목표 변수를 고려하여 잘 예측-분류하기 위해 몇 개의 주성분들을 찾아냄.

ㅇ 주성분 선택법
- 누적기여율(cumulative proportion)이 85% 이상이면 주성 분의 수로 결정
- scree plot을 활용하여 고유값이 수평을 유지하지 전단계로 주성분의 수 선택

ㅇ 주성분 분석 예
> library(datasets)
> data(USArrests)
> pairs(USArrests, panel = panel.smooth)

# Murder와 UrbanPop비율간의 관련성이 적음

> US_PCA <- princomp(USArrests, cor=TRUE)
> summary(US_PCA)
Importance of components:

# 제1주성분~제2주성분까지의 누적 분산비율이 약 86.8%로 2개의 주성분 변수를 활용하여 전체 데이터의 86.8%를 설명할 수 있음

                 Comp.1   Comp.2   Comp.3    Comp.4
Standard deviation 1.5748783 0.9948694 0.5971291 0.41644938    # 표본 분산
Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752   # 변동비
Cumulative Proportion  0.6200604 0.8675017 0.9566425 1.00000000   # 누적 비율
> screeplot(US_PCA, npcs=4, type='lines')  # 주성분들에 의해 설명되는 변동 비율 확인

> loadings(US_PCA)
Loadings: # 네 개의 변수가 각 주성분에 기여하는 가중치 제시
         # 제1주성분에는 네 개의 변수가 평균적으로 기여, 제2주성분에서는 계수의 부호가 서로 다름
           Comp.1 Comp.2 Comp.3 Comp.4
Murder    0.536   0.418   0.341    0.649
Assault    0.583  0.188    0.268   -0.743
UrbanPop  0.278  -0.873   0.378    0.134
Rape      0.543  -0.167    -0.818
                Comp.1 Comp.2 Comp.3 Comp.4
SS loadings      1.00   1.00   1.00   1.00
Proportion Var   0.25   0.25   0.25   0.25
Cumulative Var   0.25   0.50   0.75   1.00
> US_PCA$scores   # 각 주성분의 선형식을 통해 각 지역별로 얻은 결과를 계산
                    Comp.1      Comp.2      Comp.3       Comp.4
Alabama         0.98556588  1.13339238  0.44426879  0.156267145
Alaska          1.95013775  1.07321326 -2.04000333 -0.438583440
Arizona         1.76316354 -0.74595678 -0.05478082 -0.834652924
Arkansas       -0.14142029  1.11979678 -0.11457369 -0.182810896
California      2.52398013 -1.54293399 -0.59855680 -0.341996478

저작자표시 비영리 변경금지

'Study of GifMan > ADSP' 카테고리의 다른 글

ADSP 기출문제 요약집 4-2 분류분석 (1)	2020.04.28
ADSP 기출문제 요약집 4-1 데이터마이닝의 개요 (1)	2020.04.27
ADSP 기출문제 요약집 3-4 시계열 분석 (0)	2020.04.21
ADSP 기출문제 요약집 3-3 회귀분석 (0)	2020.04.19
ADSP 기출문제 요약집 3-2 기초 통계분석 (0)	2020.04.18

Sidebar - Right

블로그 정보

Killxxi

킬씨의 일상, 리뷰, IT 등의 다양성을 담고있습니다. 정말 정성을 다하는 리뷰 맛집이 되도록 노력하겠다. 재미와 정보를 동시에 담는 고퀄리티 리뷰를 위해 열심히 노력하겠습니다. 감사합니다.

글쟁이 킬씨