ADSP 기출문제 요약집 4-2 분류분석

ADSP 기출문제 요약집 4-2 분류분석

 

 

 

글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.

https://killxxi.tistory.com/100

 

ADSP 기출문제 요약집 공부방법 및 시험 후기

ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..

killxxi.tistory.com

 

 


 

adsp 분류분석

 

 

 

ㅇ 분류분석


  - 데이터가 어떤 그룹에 속하는지 예측
  - 교사학습, 각 그룹이 정의
  - 범주형 속성의 값을 예측

 

 

 


ㅇ 예측분석


  - 시계열 분석처럼 시간에 다른 값 두 개만을 이용해 미래를 예측
  - 입력 데이터에 따라 특성이 다름
  - 하나의 설명변수
  - 연속형 속성의 값을 예측

 

 

 


ㅇ 분류 모델링


  - 신용평가모형(우량,불량)
  - 사기방지모형(사기,정상)
  - 이탈모형(이탈, 유지)
  - 고객세분화(VVIP, VIP, GOLD, ...)
# 다음 중 신용카드 고객 파산여부를 예측하는 모형이 아 닌 것은? 로지스틱회귀분석 , 선형회귀분석 (X), 의사결정나무 , 앙상블모형

 

 

 


ㅇ 분류 기법


  - 회귀분석, 로지스틱회귀분석
  - 의사결정나무, CART, C5.5
  - 베이지안 분류, Naive Bayesian
  - 인공신경망
  - SVM
  - KNN
  - 규칙기반의 분류와 사례기반 추론

 

 

 


ㅇ 의사결정나무(Decision Tree)


  - 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
  - 계산결과의 시각화로 해석이 간편
  - 주어진 입력값에 대하여 출력값을 예측하는 모형

 

 

 


ㅇ 의사결정나무의 활용


  - 세분화 : 그룹별 특성을 발견
  - 분류 : 목표변수 범주를 몇 개의 등급으로 분류
  - 예측 : 규칙을 찾아내고, 미래의 사건을 예측
  - 차원축소 및 변수선택 : 목표변수에 큰 영향을 미치는 변수들을 골라냄
  - 교호작용효과의 파악 : 여러 예측변수들을 결합해 목표변수에 작용하는 규칙을 파악, 범주의 병합 or 연속형 변수의 이산화

# 의사결정나무의 목적은 새로운 데이터에 대한 분류하거나 해당 범주의 값을 예측이다.
# 목표 변수 유형에 따라 범주형 분류나무와 연속형 회귀나무로 분류된다. 
# 의사결정나무는 목표변수가 이산형인 경우의 분류나무와 목표변수가 연속형인 경우의 회귀나무로 구분한다.

 

 

 


ㅇ 의사결정나무의 특징


    ㄴ 장점
        - 설명이 용이
        - 계산적으로 복잡하지 않음
        - 대용량 데이터도 빠르게
        - 비정상 잡음 데이터에도 민감함이 없이 분류
        - 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향을 받지 않음
        - 수치형변수, 범주형변수 모두 사용 가능
        - 모형 분류에 높은 정확도
    ㄴ 단점
        - 새로운 자료에 대한 과대적합 발생 가능성이 높음
        - 분류 경계선 부근의 자료값에 대하여 오차가 큼
        - 설명변수 간의 중요도를 판단하기 쉽지 않음


# 끝 노드로 갈수로 불순도가 상승한다. (X)
# 구조가 단순하여 해석이 용이다.
# 수치형 또는 범주형 변수를 모두 사용할 수 있다. 
# 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 미모수적 모형이다.

 

 

 


ㅇ 의사결정나무의 분석 과정


  - 성장 단계 : 각 마디에서 적절한 최적의 분리규칙을 찾아 나무를 성장, 적절한 정지규칙을 만족하면 중단
  - 가지치기 단계 : 오차를 크게 할 위험이 높거나, 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지 제거
  - 타당성 평가 단계 : 이익도표, 위험도표, 시험자료를 이용하여 평가
  - 해석 및 예측 단계 : 해석-설정-예측에 적용

# 정지규칙이란 더 이상 분리가 일어나지 않고 현재의 마디가 최정마디가 되도록 하는 여러 가지 규칙으로 카이제곱통계량, 지니 지수, 엔트로피 지수 등이 있다.
# 단답. 의사 결정나무의 형성 과정 중 최종마디가 너무 많으면 모형이 과대적합 상태로 현실 문제에 적응할 수 없는 규칙이 나오게 된다. 이러한 과대적합(overfitting) 문제를 해결하기 위해 필요한 것은 무엇인가?
가지치기
# 가지치기란 최종마디가 너무 많으면 모형이 과대 적합된 상태로 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않게 된다.(X)
# 부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다.
# 의사결정나무 분석 과정에서 독립변수 차원 공간을 반복적 분할하고, 현재분할은 이전 분할에 영향을 받는다. (X)

 

 

 


ㅇ 불순도의 여러가지 축도


  - 목표변수가 범주형 변수인 의사결정나무의 분류규칙을 선택하기 위함
  ㄴ 카이제곱 통계량
  ㄴ 지니지수
  ㄴ 엔트로피 지수

 

 



ㅇ 의사결정나무 알고리즘


  ㄴ CART(Classification And Regression Tree) 
      - 알고리즘으로 불손도의 측도로 출력변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분        리를 사용
      - 개별 입력변수 뿐만 아니라 입력변수들의 선형결합들 중 에서 최적의 분리를 찾을 수 있음
  ㄴ C4.5와 C5.0 
      - CART와 다르게 각 마디에서 다지분리가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리
      - 불순도의 측도로 엔트로피지수 사용
  ㄴ CHAID(CHI-squared Automatic Interaction Detection)
      - 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하여 입력변수가 반드시 범주형 변수
      -불순도의 측도로 카이제곱 통계량 사용 

# 의사결정나무를 위한 알고리즘은 CHAIDm CART, ID3, C4.5가 있으며 상향식 접근 방법을 이용한다.
# 의사결정나무에서 이산형 목표변수는 지니지수, 연속형 목표변수는 분산 감소량을 사용하는 알고리즘은 무엇인가?
CHAID  (O)

 

 

 

댓글

Designed by JB FACTORY