ADSP 기출문제 요약집 3-1 통계분석의 이해

Killxxi
Study of GifMan/ADSP
2020. 4. 17.

ADSP 기출문제 요약집 3-1 통계분석의 이해

글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.

https://killxxi.tistory.com/100

ADSP 기출문제 요약집 공부방법 및 시험 후기

ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..

killxxi.tistory.com

ㅇ 표본 조사
  - 모집단 : 조사하고자 하는 대상 집단 전체
  - 원소 : 모집단을 구성하는 개체
  - 표본 : 조사하기 위해 추출한 모집단의 일부 원소
  - 모수 : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

# 조사과정에서 발생하는 오류는 표본 추출 오류와 비표본 추출로 분류할 수 있다.
# 표본 편의(Sampling Bias)는 표본 추출 방법에서 기인하는 오차를 의미한다.
# 표본편의는 확률화에 의해 최소화하거나 없앨 수 있다.
# 비표본오류는 표본크기가 커져도 증가 안 한다. (X)

ㅇ 표본 추출 방법
  - 단순랜덤추출법 : 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법, 선택 확률이 동일
  - 계통추출법 : 단순 랜덤추출법의 변형된 방식, K개씩 띄어서 표본 선택, 매 k번째 항목을 추출
  - 집락추출법 : 군집별로 단순 랜덤 추출법을 수행
  - 층화추출법 : 유사한 원소끼리 몇 개의 층으로 나누어 각 층에서 랜덤 추출

ㅇ 측정 방법
  - 명목 척도 : 측정 대상이 어느 집단에 속하는지 (성별, 출생지 등)
  - 순서 척도 : 측정 대상의 서열관계를 관측 (만족도, 선호도, 학년, 신용등급 등)
  - 구간(등간) 척도 : 측정 대상이 갖고 있는 속성의 양을 측정, 구간이나 구간 사이의 간격이 의미 (온도, 지수 등) , 0이 의미가 zero 가 아니다.
  - 비율 척도 : 간격에 대한 비율이 의미, 절대적 기준인 0이 존재, 사칙연산 가능 (무게, 나이, 시간, 거리 등)

# 명목 척도들 중 항목들 간에 서열이나 순위가 존재하는 척도를 서열 척도라고 한다.
# 구간 척도는 아무것도 없는 상태를 '0'으로 정할 수 있는 척도이다. (X)
# 등간 척도와 비율 척도는 간격이 일정하여 연속형 변수라고 한다.
# 남녀, 혈액형 등은 대표적인 명목 척도이다.
# 명목 척도- 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여
# 서열 척도- 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다.
# 등간 척도-순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다.
# 비율 척도- 측정값 사이의 비율 계산이 가능한 척도이며, 절대 영점이 존재하지 않는다. (X)

ㅇ 통계분석
- 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

ㅇ 기술통계
- 통계 집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
- 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등

ㅇ 통계적 추론(추측 통계)
- 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정
- 모수 추정 / 가설검정 / 예측

ㅇ 확률 및 확률 변수
  - 표본 공간 : 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합.
  - 확률 변수 : 정의역이 표본 공간 , 치역이 실수 값(o <y <1)인 함수이다.
  - 배반 사건 :  A와 B가 독립일 때 (교집합이 아닐 때), 사건 A 또는 B 중 어느 한쪽만 일어날 확률.
  - 곱셈 정리 : A와 B가 독립 사건일 때(교집합이 아닐 때) A와 B가 동시에 일어날 확률 P(A) XP(B)

# 모든 사건의 E의 확률 값은 0과 1 사이에 있다.
# 배반 사건이란 교집합이 공집합인 사건들을 말한다.
# 독립하는 두 사건 A, B 독립이면, P(B/A)=(B)와 다르다. (X)

ㅇ 이산형 확률변수 : 0이 아닌 확률 값을 갖는 확률 변수를 셀 수 있는 경우
  - 베르누이 확률분포 : 결과가 2개만 나오는 경우
  - 이항 분포 : 베르누이 시행을 n번 반복했을 때, k번 성공할 확률
  - 기하 분포 : 성공확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 x번 실패할 확률
  - 다항 분포 : 이항 분포의 확장, 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
  - 포아송 분포 : 시간과 공간 내에서 발생하는 사건의 발생 횟수

# 이산형 확률변수의 기댓값 : E(X) = Σx*f(x) (O)
# 이산형 확률변수에는 베르누이 분포, 이항 분포, 기하 분포, 포아송 분포 등이 있다.

ㅇ 연속형 확률변수 : 가능한 값이 실수의 어느 특정 구간 전체에 해당하는 확률변수
  - 균일 분포 : 모든 확률변수 X가 균일한 확률을 가지는 확률분포
  - 정규분포 : 평균이 M, 표준편차가 sigma인 x의 확률 밀도 함수
  - 지수 분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속 확률분포
  - t-분포 : 평균이 0을 중심으로 좌우가 동일한 분포, 두 집단의 평균이 동일한지 알고자 할 때 검정 통계량으로 활용
  - x^2-분포 : 모평균과 모 분산이 알려지지 않은 모집단의 모 분산에 대한 가설 검정에 사용, 두 집단 간의 동질성 검정에 활용
  - F-분포 : 두 집단 간 분산의 동일성 검정

ㅇ 추정 : 표본으로부터 미지의 모수를 추측하는 것
- 점추정 : 모수가 특정한 값일 것이라고 추정 (표본의 평균, 중위수, 최빈값 등 사용)
- 구간 추정 : 점추정의 정확성을 보완, 모수가 특정한 구간에 있을 것이라고 선언, 신뢰 수준 필요

# 점추정은 '모수가 특정한 값일 것'이라고 선언하는 것으로, 사실상 추정이 얼마나 정확한가를 판단하기 불가능하다..
# 가장 참값이라 여겨지는 하나의 모수의 값을 점추정이라 한다.
# 일정한 크기의 신뢰 수준으로 모수가 특정한 구간에 있을 것이라 선언하는 것을 구간 추정이라 한다.

-----------------------------------------------------------------
> t.test(chickwts$weight)

One Sample t-test
data:  chickwts$weight
t = 28.202, df = 70,  # 자유도(degree of freedom)
p-value < 2.2e-16  # 실제 확률
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:# 95%의 신뢰구간(구간 추정)
242.8301 279.7896
sample estimates:
mean of x   # 점추정량
261.3099
-----------------------------------------------------------------

ㅇ 가설검정 : 모집단에 대한 어떤 가설을 설정한 뒤, 표본 관찰을 통해 그 가설의 채택 여부를 결정하는 분석방법
  - 귀무가설 : 비교하는 값과 차이가 없다. 동일하다를 기본개념으로 하는 가설
  - 대립 가설 : 뚜렷한 증거가 있을 때 주장하는 가설
  - 검정 통계량 : 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
  - 유의 수준 : 귀무가설을 기각하게 되는 확률의 크기, 귀무가설이 옳은데도 이를 기각하는 확률의 크기
  - 기각역 : 귀무가설이 옳다는 전제 하에서 구한 검정 통계량의 분포에서 확률이 유의 수준 alpha인 부분

# 가설 검정이란 모집단에 대한 어떤 가설을 설정한 뒤에 표본 관찰을 통해 그 가설의 채택 여부를 결정하는 분석 방법이다.
# 귀무가설이 사실일 때 검정 통계량이 나올 확률을 P-value라고 한다. (X)
# 귀무가설을 기각하는 통계량의 영역을 기각역이라 한다.

ㅇ 오류
  - 제1종 오류 (억지) : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류
  - 제2종 오류 (병신) : 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류
   * 제1종 오류 alpha의 크기를 고정시킨 뒤(0.1, 0.05, 0.01 등) 제2종 오류 beta가 최소가 되도록 기각역을 설정

# 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류를 제1종 오류라고 한다.

ㅇ 모수에 대한 검정
  - 모수적 방법
     ㄴ 검정하고자 하는 모집단의 분포에 대한 가정하에서 검정 통계량과 검정 통계량의 분포를 유도해 검정을 실시
     ㄴ 가정된 분포의 모수에 대해 가설을 설정
     ㄴ 관측 도니 자료를 이용해 구한 표본 평균, 표본 분산 등을 이용해 검정 실시
  - 비모수적 방법
     ㄴ 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시
     ㄴ 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우 이용
     ㄴ 관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체 간의 서열관계를 나타내는 경우 이용
     ㄴ 분포의 형태에 대해 설정
     ㄴ 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용하여 검정
     ㄴ ex) 부호 검정, 윌콕슨의 순위합 검정, 윌콕슨의 부호 순위 합 검정, 만-위트니의 U검정, 런검정, 스피어만의 순위 상관계수

# 비모수 검정은 평균, 분산을 이용한 검정을 이용한다. (X)
# 비모수검정은 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정방법이다.
# 비모수검정은 관측값들의 순위나 두 관측값 사이의 부호 등을 이용해 검정한다.
# 비모수검정은 모집단의 특성을 몇 개의 모수로 결정하기 어려우며 수많은 모수가 필요할 수 있다.
# 비모 수축 이론은 가정된 분포가 없으므로 아무런 가정을 하지 않고 검정을 실시해 모수를 추천한다. (x)
# 비모수 검정 중 짝지어진 두 개의 관찰치의 크고 작음에 대한 가설 검증? = 부호 검정
# 다음의 통계 감정 중 표본 특성이 2개 표본 이상일 때의 비모수 검정 : 부호 검정, 크루스 칼-왈리스 검정, 맨-휘트니 검정
, 카이 스케어 검정 (X)

저작자표시 비영리 변경금지

'Study of GifMan > ADSP' 카테고리의 다른 글

ADSP 기출문제 요약집 3-3 회귀분석 (0)	2020.04.19
ADSP 기출문제 요약집 3-2 기초 통계분석 (0)	2020.04.18
ADSP 기출문제 요약집 2-2 분석 마스터 플랜 (2)	2020.04.16
ADSP 기출문제 요약집 2-1 데이터 분석 기획의 이해 (0)	2020.04.15
ADSP 기출문제 요약집 1-3 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0)	2020.04.14

Sidebar - Right

블로그 정보

Killxxi

킬씨의 일상, 리뷰, IT 등의 다양성을 담고있습니다. 정말 정성을 다하는 리뷰 맛집이 되도록 노력하겠다. 재미와 정보를 동시에 담는 고퀄리티 리뷰를 위해 열심히 노력하겠습니다. 감사합니다.

글쟁이 킬씨