ADSP 기출문제 요약집 4-5 군집분석
- Study of GifMan/ADSP
- 2020. 5. 1.
ADSP 기출문제 요약집 4-5 군집분석
안녕하세요. 킬씨합니다.
제가 준비한 요약집은 안타깝게도 여기가 마지막입니다.
또 다른 양이 있지만 그림을 보면서 이해하셔야지 쉽고 계산문제도 많습니다.
시험 보기전에 꼭찾아서 풀어보는 것을 추천드립니다.
합격 기원드립니다.!
글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.
https://killxxi.tistory.com/100
ㅇ 군집분석
- 유사성이 높은 대상 집단을 분류
- 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간 상이성을 규명하는 분석 방법
- 데이터들 사이의 거리를 기준으로 군집화를 유도
# 이질적인 모집단을 세분화시키기 위한 방법은?
- 군집분석 (o)
# 임의적 모양의 군집 탐색에 효과적인 기법?
--> 3) 밀도기반 군집 기법 (상)
#군집내 거리와 군집간의 거리를 기준으로 군집 분할 성과를 측정하는 방식?
--> 4) 실루엣 계수 (상)
# 군집분석 설명 중 옳은 것은?
- 도기반 기법 – DBSCAN (o)
ㅇ 군집분석의 거리
ㄴ 연속형 변수의 경우
- 유클리디안(Euclidean) 거리 : 데이터간 유사성 측정을 위해 많이 사용하는 거리
- 표준화(statistical) 거리 : 해당변수의 표준편차로 척 도 변환 후 유클리디안 거리를 계산하는 방법
- 마할라노비스(Mahalanobis) 거리 : 통계적 개념이 포 함된 거리, 변수들의 산포를 고려하여 표준화한 거리
- 체비셰프(Chebychev) 거리
- 맨하탄(Manhattan) 거리 : 유클리디안 거리와 함께 가장 많이 사용되는 거리
- 캔버라(Cancerra) 거리
- 민코우스키(Minkowski) 거리 : 맨하탄 거리와 유클리 디안 거리를 한번에 표현한 공식
ㄴ 범주형 변수의 경우
- 자카드 거리
- 자카드 계수
- 코사인 거리
- 코사인 유사도
# 계층적 군집은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요하다. 다음 중 dist() 함수에서 지원하지 않은 거리는?
유클리드, 맨하튼, 민코프스키, binary(X)
# 아래는 5개 2차원 좌표를 가진 데이터셋에서 각 관측치 사이의 유클리드 거리를 한 계층적 군집분석의 결과로 적절한 것은?
a<-c(2,5), b<-c(3,5), d<-c(6,4), e<-c(5,3) f<-c(3,8)
③ (a,d), (f), (d,e) (O)
ㅇ 계층적 군집분석
- n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
- 연결법
ㄴ 최단연결법(single linkage) : 가장 가까운 데이터를 묶 어서 군집을 형성
ㄴ 최장연결법(complete linkage) : 최장거리를 거리로 계 산
ㄴ 평균연결법(average linkage) : 평균을 거리로 계산
ㄴ 와드연결법(ward linkage) : 편차들의 제곱합
# 최단연결법 또는 단일연결법은 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최솟값으로 측정한다.
# 최단연결법은 최단거리를 사용할 때 사슬 모양으로 생길 수 있으며, 고립된 군집을 찾는 데 중점을 둔 방법이다.
# 중심연결법은 두 군집의 중심 간의 거리를 측정한다. 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해진다.
# 최단연결법은 평균연결법보다 계산량이 많아질 수 있다.(x)
# 계층적 군집에서 군집내외 오차제곱함에 기초하여 군집을 수행하는 군집 방법은 무엇인가?
- 와드연결법(O)
# 계층적 군집분석은 이상치에 민감하다.
# 비계층적 군집분석 기법의 경우 사용자가 사전 지식 없이 그룹의 수를 정해주는 일이 많기 때문에 결과가 잘 나오지 않을 수 있다.
# 군집준석은 신뢰성과 타당성 점검이 어렵다.
# 군집 결과에 대한 안정성을 검토하는 방법으로 지도학습과 동일한 교차타당성을 이용한다. (X)
ㅇ 군집화
- 거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램을 그림
- 덴드로그램을 보고 군집의 개수를 변화해 가면서 적절한 군집 수를 선정
- 군집 수는 분석 목적에 따라 선정할 수 있지만 대부분 5개 이상의 군집은 잘 활용하지 않음
ㅇ 군집화 단계
- 거리행렬을 기준으로 덴드로그램을 그림
- 덴드로그램의 최상단부터 세로축의 개수에 다라 가로선을 그어 군집의 개수를 선택
- 각 객체들의 구성을 고려하여 적절한 군집수 선정
ㅇ 비계층적 군집분석
- n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성
- ex) K-평균 군집분석
# 군집의 개수를 미리 정하지 않아도 되는 탐색적 모형? --> 3) 계층적 군집 (중)
ㅇ K-평균 군집분석(K-means clustering)
- 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
- 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
ㅇ K-평균 군집분석 과정
- 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성
- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
- 각 군집의 seed 값을 다시 계산
- 모든 개체가 군집으로 할당될 때까지 위 과정을 반복
# 다음 중 k 평균군집분석의 분석절차 순서는?
a 초기군집중심으로 k개의 객체로 임의 선택
b 각 자료를 가장 가까운 군집 중심에 할당
c 각 군집내의 자료들을 평균을 계산하여 군집의 중심
갱신
d 군집 중심의 변화가 없을 때 까지 b,c 반복한다.
1 a->b->c->d (O)
ㅇ K-평균 군집분석의 특징
- 거리 계산을 통해 군집화가 이루어지므로 연속형 변수에 활용 가능
- K개의 초기 중심값은 임의로 선택 가능, 가급적 멀리 떨어지는 것이 바람직
- 초기 중심값의 선정에 따라 결과가 달라질 수 있음
- 초기 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘
- 안정된 군집은 보장하나 최적이라는 보장은 없음
ㅇ K-평균 군집분석 장-단점
ㄴ 장점
- 알고리즘이 단순, 빠른 수행, 분석 방법 적용이 용이
- 계층적 군집분석에 비해 많은 양의 데이터를 다룰 수 있음
- 내부 구조에 대한 사전정보가 없어도 의미있는 자료 구조를 찾을 수 있음
- 다양한 형태의 데이터에 적용 가능
ㄴ 단점
- 군집의 수, 가중치와 거리 정의가 어려움
- 사전에 주어진 목적이 없으므로 결과 해석이 어려움
- 잡음이나 이상치에 영향을 많이 받음
- 초기 군집수 결정에 어려움
# 이상값 자료에 민감한 K-평균 군집의 단점을 보완하기 휘해 군집을 형성하는 매 단계 마다 평균 대신 중앙값을 사용하는 K-중앙값 군집을 사용한다.(o)
# K-평균은 군집의 수를 미리 정할 필요가 없다. (x)
# 블록한 형태가 아닌 군집이 존재할 경우 군집 성능이 높아진다. (x)
# 단점 해결을 위해 조화평균을 사용한다.(x)
# K-평균 군집 결과는 덴드로그램의 형태로 표현된다.(x)
# K-평균 군집은 한번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없다.(x)
# K-평균 군집은 초기값을 지정하지 않는다. (x)
# 알고리즘이 단순하며, 빠르게 수행되며 계층적 군집보다 많은 양의 자료를 다룰 수 있다.(o)
ㅇ 혼합 분포 군집(mixture distribution clustering)
- 모형기반의 군집 방법
- 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법 사용
ㅇ 혼합 분포 군집모형의 특징
- K-평균군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
- 군집을 몇 개의 모수로 표현 가능, 서로 다른 크기나 모양의 군집을 찾을 수 있음
- 이상치 자료에 민감
ㅇ SOM(Self-Organizing Map)
- 자가조직화지도 알고리즘
- 비지도 신경망으로 고차원의 데이터를 이해하지 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화
- 입력 변수의 위치 관계를 그대로 보존
- 입력 변수가 가까이 있으면, 지도상에도 가까운 위치에 있음
# 기법 활용 분야가 다른 것은?
SOM (X), 로지스틱 회귀분석, 신경망, 의사결정나무
# SOM Process에서 입력 벡처와 경쟁층 노드 간의 유크리드 거리를 계산하여 그 중에서 제일 가까운 Neuron을 무엇이라 하는가? 최소자승법 (O)
ㅇ SOM모델의 구성
ㄴ 입력층(Input layer : 입력벡터를 받는 층)
- 입력 변수의 개수와 동일하게 뉴런 수가 존재
- 학습을 통하여 경쟁층에 정렬
- 입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런들과 연결(완전 연결)
ㄴ 경쟁층(competitive layer : 2차원 격차로 구성된 층)
- 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링되는 층
- SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습
- 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자
ㅇ SOM모델의 특징
- 고차원 데이터를 저차원의 지도 형태로 형상화하므로 시각적으로 이해하기 쉬움
- 입력 변수의 위치 관계를 그대로 보존, 실제 데이터가 유사하면 지도상에서 가깝게 표현
- 전방 패스(feed-forwatd flow) 사용으로 매우 빠른 속도, 실시간 학습처리 가능
- 패턴 발견, 이미지 분석 등에서 뛰어난 성능
# SOM은 연적파 알고리즘을 사용한다. (X)
# 차원축소와 군집화를 동시에 수행하는 기법이다.
# 주요 기능 중에 데이터의 특징을 파악하여 유사 데이터 클링한다.
# 대표적인 비지도학습이다.
# SOM 에 대한 설명으로 옳은 것은?
--> 4) 승자 독점의 학습 규칙에 따라 학습 (상)
'Study of GifMan > ADSP' 카테고리의 다른 글
ADSP 기출문제 요약집 4-4 인공신경망 분석 (0) | 2020.04.30 |
---|---|
ADSP 기출문제 요약집 4-3 앙상블분석 (1) | 2020.04.29 |
ADSP 기출문제 요약집 4-2 분류분석 (1) | 2020.04.28 |
ADSP 기출문제 요약집 4-1 데이터마이닝의 개요 (1) | 2020.04.27 |
ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA) (0) | 2020.04.26 |