ADSP 기출문제 요약집 4-3 앙상블분석
- Study of GifMan/ADSP
- 2020. 4. 29.
ADSP 기출문제 요약집 4-3 앙상블분석
글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.
https://killxxi.tistory.com/100
ㅇ 앙상블(Ensemble)
- 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 만드는 방법
- 지도학습
- 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우, 그 학습방법은 불안정
- 가장 안정적인 방법(1NN, 선형회귀모형), 가장 불안정한 방법(의사결정나무)
# 앙상블의 특징으로 옳지 않은 것?
--> 4) 상호 연관성이 높으면 정확도가 향상 (상)
ㅇ 앙상블 기법의 종류
ㄴ 배깅
- 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
- 가지치기를 하지 않고 최대로 성정한 의사결정나무들을 활용
ㄴ 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
ㄴ 랜덤포레스트
- 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기를 만드는 방법
# 다음 중 앙상블 모형이 아닌 것은?
시그모이드 (x), 배깅, 랜덤 포리스트, 부스팅
# 원 데이터로 집합으로부터 크기가 같은 표본을 중복을 허용하여 복원 추출하여 각 표본에 대한 분류기(Classifiers)를 생성하는 기법은? 배깅 (O)
# 보험에서 해지할 예상 고객을 예측 시 사용할 수 있는 적절한 기법은? 랜덤포레스트 (O)
# FP Ratio(1-특이도), 민감도를 나타내어 이 두 평면 값의 관계로 하는 모형 평가를 무엇이라 하는가? 부스팅 (O)
# 앙상블 방법론 중 부분집합에 모형을 생성하여 결합하는 방식?
--> 3) 랜덤포레스트 (상)
ㅇ 붓스트랩
- 주어진 자료에서 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법
- 샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있는데 이는 전체 샘플의 약 36.8%에 해당
# 붓스트랩 방식을 이용하였을 때 일반적인 훈련 데이터의 양은? # 63.2% (O)
ㅇ 성과분석1) 오분류에 대한 추정치
- 정분류율(Accuracy) => (TP+TN)/(TP+FP+FN+TN)
- 오분류율(Error Rate, 1-Accuracy)
=> (FN+FP)/(TP+FP+FN+TN)
- 특이도(Specificity) => TN/(FP+TN)
- 민감도(Sensitivity) = 재현율(Recall) => TP/(TP+FN)
- 정확도(Precision) => TP/(TP+FP)
- F1 Score => 2/((1/민감도+(1/정확도))
# 오분류표를 활용한 평가지표 F1지표 중 민감도(Sensitivity)와 같은 지표는?
- Recall (O)
# 다음 중 오분류표의 평가지표 중 True로 예측한 것 중 실 제 True인 지표를 무엇이라 하는가?
- Kappa (O)
# 다음 오분류표를 참고하여 재현율 정의하면?
- TP/(TP+FN) (O)
# 오분류표 중 정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 지표를 무엇이라 하는가?
- F1 (O)
ㅇ 성과분석2) ROC Curve
- 1-특이도(가로축)과 민감도(세로축)으로 이루어진 그래프
- 2진 분류에서 모형 성능 평가를 위해 많이 사용되는 척도
- 그래프가 왼쪽 상단에 가깝게 그려질 수록 올바르게 예측한 비율이 높음을 의미
- AUROC(Area Under ROC) : ROC곡선 아래의 면적이 클 수록 모형의 성능이 좋다고 평가
90%이상 : excellent / 80%~90% : good / 70%~80% : fair ...
ㅇ 성과분석3) 이익도표(Lift chart)
- 분류모형의 성능을 평가하기 위한 척도
- 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타냄
'Study of GifMan > ADSP' 카테고리의 다른 글
ADSP 기출문제 요약집 4-5 군집분석 (0) | 2020.05.01 |
---|---|
ADSP 기출문제 요약집 4-4 인공신경망 분석 (0) | 2020.04.30 |
ADSP 기출문제 요약집 4-2 분류분석 (1) | 2020.04.28 |
ADSP 기출문제 요약집 4-1 데이터마이닝의 개요 (1) | 2020.04.27 |
ADSP 기출문제 요약집 3-5 다차원척도법, 3-6 주성분분석(PCA) (0) | 2020.04.26 |