ADSP 기출문제 요약집 4-1 데이터마이닝의 개요

ADSP 기출문제 요약집 4-1 데이터마이닝의 개요



 



글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.

https://killxxi.tistory.com/100

 

ADSP 기출문제 요약집 공부방법 및 시험 후기

ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..

killxxi.tistory.com

 

 


 

adsp 데이터마이닝

 

 


ㅇ 데이터 마이닝


  - 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

# 기업이 보유하고 있는 일일 거래 데이터, 고객 데이터, 상품 데이터 혹은 각종 마케팅 활동에 있어서의 고객 반응 데이터 등과 이외의 외부 데이터를 포함하는 모든 사용 가능한 원천 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하는 일련의 작업을 무엇이라 하는가?
- 데이터 마이닝(O)
# 데이터마이닝의 목적 중 사람, 상품에 관한 이해를 증가 시키기 위한 것으로 데이터의 특징 및 의미를 표현 및 설명하는 기능을 무엇이라 하는가?
- 분류  (O)

 

 

 


ㅇ 종류


  - 정보를 찾는 방법론 : 인공지능, 의사결정나무, KNN, 연관분석, 회귀분석, 로짓분석, 최근접이웃
  - 분석대상, 활용목적, 표현방법 : 시각화분석, 분류, 군집화, 포케스팅

 




ㅇ 분석 방법


  - 지도학습 : 의사결정나무, 인공신경망, 일반화 선형 모형, 회귀분석, 로지스틱 회귀분석, 사례기반 추론, KNN
  - 비지도학습 : OLAP, 연관성분석, 군집분석, SOM


# 로지스틱 회귀는 대표적인 지도학습으로 분류한다.

 

 

 


ㅇ 분석 목적에 다른 작업 유형과 기법


  - 예측
    ㄴ 분류 규칙 : 회귀분석, 판별분석, 신경망, 의사결정나무
  - 설명
    ㄴ 연관규칙 : 동시발생 매트릭스
    ㄴ 연속규칙 : 동시발생 매트릭스
    ㄴ 데이터 군집화 : K-Means


# 카탈로그 배열 및 교차판매, 공격적 판촉행사 등의 마켓 팅 계획-연관분석 (O)
# 부모가 있는 어린이의 수를 추정, 가족구성원의 총수입 추정-의사결정나무
# 생물을 문, 종, 속으로 나누는 것이나, 물질을 요소별로 나누는 것-장바구니분석
# 시장 세분화의 첫 단계로서, 판촉 활동에 가장 반응률이 높은 고객 선별-회귀분석

 

 

 


ㅇ 데이터마이닝 추진단계


  - 1단계 : 목적 설정 (목적 설정 및 데이터 정의)
  - 2단계 : 데이터 준비 (충분한 양의 데이터 준비)
  - 3단계 : 데이터 가공 (목적 변수 정의 및 가공)
  - 4단계 : 기법 적용 (기법 정용 및 정보 추출)
  - 5단계 : 검증 (정보를 검증)


# 데이터마이닝 단계 중 목적 변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어 적용할 수 있게 데이터를 준비하는 단계는? 데이터 가공 (O)

 

 

 


ㅇ 데이터 분할


  - 구축용(training data, 50%) : 모델을 만드는데 활용
  - 검정용(validation data, 30%) : 과대추정 or 과소추정을 미세 조정
  - 시험용(test data, 20%) : 모델의 성능을 검증


# 모델을 만들 때는 보통 데이터를 training set와 test set로 나누어 사용하며 학습에 사용한 training 데이터와 test 데이터가 비슷하다면 앞에서 만든 모델의 정확도는 높게 나올 것이다.
# test set 결과가 일반적으로 training set 결과보다 좋다. (x)
# sample()은 데이터의 무작위 재배열보다는 데이터에서 일부를 train/test data로 분리하는 데 유용하게 사용된다. 
# Hitters dataset 70%는 traindata로 분할된다.
# 반복수행시 매회 다른 데이터분할이 샘플링 된다. (X)
# 데이터 분할을 하는 이유는 주어진 데이터에서만 높은 성과를 보이는 모형의 과적합 문제를 해결하기 위한 단계로 잘못된 가설을 가정하게 되는 2종오류의 발생을 방지하는 데 있다.
# 과적합 발생 여부를 확인하기 위해서는 주어진 데이터에서 일정 부분을 모델을 만드는 훈련 데이터로 사용하고, 나머지 데이터를 사용햐 모델을 평가한다. 이얼게 데이터를 훈련, 테스트 데이터로 분리하여 검증하는 방법은 무엇이라 하는가? - 홀드아웃 (O)

 

 

 


ㅇ 적합 개념
  - 과적합-과대적합(Overfitting) : 모형이 trainind data를 과하게 학습하여, 학습 데이터에 대해서는 높은 정확도를 나타내지만 test data 혹은 다른 데이터에 적용할 때는 성능이 떨어지는 현상
  - 과소적합(Underfitting) : 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못 하는 경우

# 모델이 너무 간단하여 정확도가 낮은 모델을 과소적합되었다고 말한다.
# 과대적합이나 과소적합의 문제를 최소화하고 모델의 정확도를 높이는 가장 좋은 방법은 더 많고 다양한 데이터를 확보하고, 확보한 데이터로부터 더 다양한 특징들을 찾아서 학습에 사용하는 것이다.
# 같은 모집단 내의 다른 데이터에 적용하는 경우에도 안정적인 결과를 제공하는 것을 의미하며 데이터를 확장하여 적용할 수 있는지에 대한 모형 평가 기준을 무엇이라 하는 가?
일반화의 가능성 (O)

 

 

 

댓글

Designed by JB FACTORY