ADSP 기출문제 요약집 4-3 앙상블분석

ADSP 기출문제 요약집 4-3 앙상블분석

 

 

 

 

 

 

글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.

https://killxxi.tistory.com/100

 

ADSP 기출문제 요약집 공부방법 및 시험 후기

ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..

killxxi.tistory.com

 


 

 

 

ㅇ  앙상블(Ensemble)


  - 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 만드는 방법
  - 지도학습
  - 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우, 그 학습방법은 불안정
  - 가장 안정적인 방법(1NN, 선형회귀모형), 가장 불안정한 방법(의사결정나무)

# 앙상블의 특징으로 옳지 않은 것?
--> 4) 상호 연관성이 높으면 정확도가 향상 (상)

 

 

 


ㅇ 앙상블 기법의 종류


   ㄴ 배깅 
       - 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
       - 가지치기를 하지 않고 최대로 성정한 의사결정나무들을 활용 
   ㄴ 부스팅
       - 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
   ㄴ 랜덤포레스트
       - 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기를 만드는 방법

# 다음 중 앙상블 모형이 아닌 것은?
시그모이드 (x), 배깅, 랜덤 포리스트, 부스팅
# 원 데이터로 집합으로부터 크기가 같은 표본을 중복을 허용하여 복원 추출하여 각 표본에 대한 분류기(Classifiers)를 생성하는 기법은?  배깅 (O)
# 보험에서 해지할 예상 고객을 예측 시 사용할 수 있는 적절한 기법은?  랜덤포레스트 (O)
# FP Ratio(1-특이도), 민감도를 나타내어 이 두 평면 값의 관계로 하는 모형 평가를 무엇이라 하는가? 부스팅 (O)
# 앙상블 방법론 중 부분집합에 모형을 생성하여 결합하는 방식?
--> 3) 랜덤포레스트 (상)

 

 



ㅇ 붓스트랩


  - 주어진 자료에서 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법
  - 샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있는데 이는 전체 샘플의 약 36.8%에 해당
#  붓스트랩 방식을 이용하였을 때 일반적인 훈련 데이터의 양은? # 63.2% (O)

 

 



ㅇ 성과분석1) 오분류에 대한 추정치

 


    - 정분류율(Accuracy) => (TP+TN)/(TP+FP+FN+TN)
  - 오분류율(Error Rate, 1-Accuracy) 
  => (FN+FP)/(TP+FP+FN+TN)
  - 특이도(Specificity) => TN/(FP+TN)
  - 민감도(Sensitivity) = 재현율(Recall) => TP/(TP+FN)
  - 정확도(Precision) => TP/(TP+FP)
  - F1 Score => 2/((1/민감도+(1/정확도))


# 오분류표를 활용한 평가지표 F1지표 중 민감도(Sensitivity)와 같은 지표는?
- Recall (O)
# 다음 중 오분류표의 평가지표 중 True로 예측한 것 중 실 제 True인 지표를 무엇이라 하는가?
- Kappa (O)
# 다음 오분류표를 참고하여 재현율 정의하면?
- TP/(TP+FN) (O)
# 오분류표 중 정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 지표를 무엇이라 하는가?
- F1 (O)

 

 

 


ㅇ 성과분석2) ROC Curve

 


    
  - 1-특이도(가로축)과 민감도(세로축)으로 이루어진 그래프
  - 2진 분류에서 모형 성능 평가를 위해 많이 사용되는 척도
  - 그래프가 왼쪽 상단에 가깝게 그려질 수록 올바르게 예측한 비율이 높음을 의미
  - AUROC(Area Under ROC) : ROC곡선 아래의 면적이 클 수록 모형의 성능이 좋다고 평가
    90%이상 : excellent / 80%~90% : good / 70%~80% : fair ...

 

 



ㅇ 성과분석3) 이익도표(Lift chart)


  - 분류모형의 성능을 평가하기 위한 척도
  - 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타냄

 

 

댓글

Designed by JB FACTORY