ADSP 기출문제 요약집 4-5 군집분석

ADSP 기출문제 요약집 4-5 군집분석

 

 


 

안녕하세요. 킬씨합니다.
제가 준비한 요약집은 안타깝게도 여기가 마지막입니다.
또 다른 양이 있지만 그림을 보면서 이해하셔야지 쉽고 계산문제도 많습니다.
시험 보기전에 꼭찾아서 풀어보는 것을 추천드립니다.
합격 기원드립니다.!

글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.

https://killxxi.tistory.com/100

 

ADSP 기출문제 요약집 공부방법 및 시험 후기

ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..

killxxi.tistory.com

 


adsp 군집분석

 

 

ㅇ 군집분석


  - 유사성이 높은 대상 집단을 분류
  - 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간 상이성을 규명하는 분석 방법
  - 데이터들 사이의 거리를 기준으로 군집화를 유도

# 이질적인 모집단을 세분화시키기 위한 방법은?
- 군집분석 (o)
# 임의적 모양의 군집 탐색에 효과적인 기법?               
--> 3) 밀도기반 군집 기법 (상)
#군집내 거리와 군집간의 거리를 기준으로 군집 분할 성과를 측정하는 방식?  
--> 4) 실루엣 계수 (상)
# 군집분석 설명 중 옳은 것은?
-  도기반 기법 – DBSCAN (o)

 

 

 


ㅇ 군집분석의 거리


   ㄴ 연속형 변수의 경우
       - 유클리디안(Euclidean) 거리 : 데이터간 유사성 측정을         위해 많이 사용하는 거리
       - 표준화(statistical) 거리 : 해당변수의 표준편차로 척         도 변환 후 유클리디안 거리를 계산하는 방법
       - 마할라노비스(Mahalanobis) 거리 : 통계적 개념이 포         함된 거리, 변수들의 산포를 고려하여 표준화한 거리
       - 체비셰프(Chebychev) 거리 
       - 맨하탄(Manhattan) 거리 : 유클리디안 거리와 함께          가장 많이 사용되는 거리
       - 캔버라(Cancerra) 거리
       - 민코우스키(Minkowski) 거리 : 맨하탄 거리와 유클리         디안 거리를 한번에 표현한 공식
   ㄴ 범주형 변수의 경우
       - 자카드 거리
       - 자카드 계수
       - 코사인 거리
       - 코사인 유사도


# 계층적 군집은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요하다. 다음 중 dist() 함수에서 지원하지 않은 거리는? 
유클리드, 맨하튼, 민코프스키, binary(X)
# 아래는 5개 2차원 좌표를 가진 데이터셋에서 각 관측치 사이의 유클리드 거리를 한 계층적 군집분석의 결과로 적절한 것은? 
a<-c(2,5), b<-c(3,5), d<-c(6,4), e<-c(5,3)                f<-c(3,8)
③ (a,d), (f), (d,e) (O)

 

 

 


ㅇ 계층적 군집분석


  - n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
  - 연결법
     ㄴ 최단연결법(single linkage) : 가장 가까운 데이터를 묶       어서 군집을 형성
     ㄴ 최장연결법(complete linkage) : 최장거리를 거리로 계       산
     ㄴ 평균연결법(average linkage) : 평균을 거리로 계산
     ㄴ 와드연결법(ward linkage) : 편차들의 제곱합

# 최단연결법 또는 단일연결법은 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최솟값으로 측정한다.
# 최단연결법은 최단거리를 사용할 때 사슬 모양으로 생길 수 있으며, 고립된 군집을 찾는 데 중점을 둔 방법이다.
# 중심연결법은 두 군집의 중심 간의 거리를 측정한다. 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해진다.
# 최단연결법은 평균연결법보다 계산량이 많아질 수 있다.(x)
# 계층적 군집에서 군집내외 오차제곱함에 기초하여 군집을 수행하는 군집 방법은 무엇인가?
- 와드연결법(O)
# 계층적 군집분석은 이상치에 민감하다.
# 비계층적 군집분석 기법의 경우 사용자가 사전 지식 없이 그룹의 수를 정해주는 일이 많기 때문에 결과가 잘 나오지 않을 수 있다.
# 군집준석은 신뢰성과 타당성 점검이 어렵다.
# 군집 결과에 대한 안정성을 검토하는 방법으로 지도학습과 동일한 교차타당성을 이용한다. (X)

 

 

 


ㅇ 군집화


  - 거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램을 그림
  - 덴드로그램을 보고 군집의 개수를 변화해 가면서 적절한 군집 수를 선정
  - 군집 수는 분석 목적에 따라 선정할 수 있지만 대부분 5개 이상의 군집은 잘 활용하지 않음

 

 


ㅇ 군집화 단계


  - 거리행렬을 기준으로 덴드로그램을 그림
  - 덴드로그램의 최상단부터 세로축의 개수에 다라 가로선을 그어 군집의 개수를 선택
  - 각 객체들의 구성을 고려하여 적절한 군집수 선정

 

 

 


ㅇ 비계층적 군집분석


  - n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성
  - ex) K-평균 군집분석
# 군집의 개수를 미리 정하지 않아도 되는 탐색적 모형?       --> 3) 계층적 군집 (중)
ㅇ K-평균 군집분석(K-means clustering)
  - 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
  - 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작

 

 


ㅇ K-평균 군집분석 과정


  - 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성
  - 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
  - 각 군집의 seed 값을 다시 계산
  - 모든 개체가 군집으로 할당될 때까지 위 과정을 반복

# 다음 중 k 평균군집분석의 분석절차 순서는?
a 초기군집중심으로 k개의 객체로 임의 선택
b 각 자료를 가장 가까운 군집 중심에 할당
c 각 군집내의 자료들을 평균을 계산하여 군집의 중심
 갱신
d 군집 중심의 변화가 없을 때 까지 b,c 반복한다.
1 a->b->c->d (O)

 

 

 


ㅇ K-평균 군집분석의 특징


  - 거리 계산을 통해 군집화가 이루어지므로 연속형 변수에 활용 가능
  - K개의 초기 중심값은 임의로 선택 가능, 가급적 멀리 떨어지는 것이 바람직
  - 초기 중심값의 선정에 따라 결과가 달라질 수 있음
  - 초기 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘
  - 안정된 군집은 보장하나 최적이라는 보장은 없음

 

 

 


ㅇ K-평균 군집분석 장-단점


    ㄴ 장점
        - 알고리즘이 단순, 빠른 수행, 분석 방법 적용이 용이
        - 계층적 군집분석에 비해 많은 양의 데이터를 다룰 수          있음
        - 내부 구조에 대한 사전정보가 없어도 의미있는 자료          구조를 찾을 수 있음
        - 다양한 형태의 데이터에 적용 가능
    ㄴ 단점
        - 군집의 수, 가중치와 거리 정의가 어려움
        - 사전에 주어진 목적이 없으므로 결과 해석이 어려움
        - 잡음이나 이상치에 영향을 많이 받음
        - 초기 군집수 결정에 어려움

# 이상값 자료에 민감한 K-평균 군집의 단점을 보완하기 휘해 군집을 형성하는 매 단계 마다 평균 대신 중앙값을 사용하는 K-중앙값 군집을 사용한다.(o)
# K-평균은 군집의 수를 미리 정할 필요가 없다. (x)
# 블록한 형태가 아닌 군집이 존재할 경우 군집 성능이 높아진다. (x)
# 단점 해결을 위해 조화평균을 사용한다.(x)
# K-평균 군집 결과는 덴드로그램의 형태로 표현된다.(x)
# K-평균 군집은 한번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없다.(x)
# K-평균 군집은 초기값을 지정하지 않는다. (x)
# 알고리즘이 단순하며, 빠르게 수행되며 계층적 군집보다 많은 양의 자료를 다룰 수 있다.(o)

 

 



ㅇ 혼합 분포 군집(mixture distribution clustering)


  - 모형기반의 군집 방법
  - 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법 사용

 

 


ㅇ 혼합 분포 군집모형의 특징


  - K-평균군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
  - 군집을 몇 개의 모수로 표현 가능, 서로 다른 크기나 모양의 군집을 찾을 수 있음
  - 이상치 자료에 민감

 

 



ㅇ SOM(Self-Organizing Map)


  - 자가조직화지도 알고리즘
  - 비지도 신경망으로 고차원의 데이터를 이해하지 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
  - 입력 변수의 위치 관계를 그대로 보존
  - 입력 변수가 가까이 있으면, 지도상에도 가까운 위치에 있음


# 기법 활용 분야가 다른 것은?
SOM (X), 로지스틱 회귀분석, 신경망, 의사결정나무
# SOM Process에서 입력 벡처와 경쟁층 노드 간의 유크리드 거리를 계산하여 그 중에서 제일 가까운 Neuron을 무엇이라 하는가? 최소자승법 (O)

 

 

 


ㅇ SOM모델의 구성


   ㄴ 입력층(Input layer : 입력벡터를 받는 층)
       - 입력 변수의 개수와 동일하게 뉴런 수가 존재
       - 학습을 통하여 경쟁층에 정렬
       - 입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런들과 연결(완전 연결)
   ㄴ 경쟁층(competitive layer : 2차원 격차로 구성된 층)
       - 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링되는 층
       - SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습
       - 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자

 

 



ㅇ SOM모델의 특징


  - 고차원 데이터를 저차원의 지도 형태로 형상화하므로 시각적으로 이해하기 쉬움
  - 입력 변수의 위치 관계를 그대로 보존, 실제 데이터가 유사하면 지도상에서 가깝게 표현
  - 전방 패스(feed-forwatd flow) 사용으로 매우 빠른 속도, 실시간 학습처리 가능
  - 패턴 발견, 이미지 분석 등에서 뛰어난 성능


# SOM은 연적파 알고리즘을 사용한다. (X)
# 차원축소와 군집화를 동시에 수행하는 기법이다.
# 주요 기능 중에 데이터의 특징을 파악하여 유사 데이터 클링한다.
# 대표적인 비지도학습이다.
# SOM 에 대한 설명으로 옳은 것은?
--> 4) 승자 독점의 학습 규칙에 따라 학습 (상)

 

 

댓글

Designed by JB FACTORY