ADSP 기출문제 요약집 3-2 기초 통계분석
- Study of GifMan/ADSP
- 2020. 4. 18.
ADSP 기출문제 요약집 3-2 기초 통계분석
글을 읽기 전 공부 방법에 대한 글을 반드시 먼저 읽고 오시는 것을 추천드립니다.
https://killxxi.tistory.com/100
ADSP 기출문제 요약집 공부방법 및 시험 후기
ADSP 기출문제 요약집 공부방법 및 시험 후기 안녕하세요! 킬씨입니다. 오늘은 저가 공부해서 자격증을 취득한 ADSP 시험에 관한 요약집을 공부하는 방법에 대하여 알려드리겠습니다. 0. 시작에 앞선 인증 일단..
killxxi.tistory.com
ㅇ 왜도 : 분포의 비대칭 정도를 나타내는 측도
- m3 > 0 : 오른쪽으로 긴 꼬리를 갖는 분포
- m3 = 0 : 좌우 대칭의 분포
- m3 < 0 : 왼쪽으로 긴 꼬리를 갖는 분포
# 오른쪽으로 꼬리가 긴 분포의 평균과 중앙값의 관계?
--> 4) 평균이 중앙값보다 크다(하)
ㅇ 첨도 : 분포의 중심에서 뾰족한 정도를 나타내는 측도
- m4 > 0 : 표준정규분포보다 더 뾰족함
- m4 = 0 : 표준정규분포와 유사한 뾰족함
- m4 < 0 : 표준정규분포보다 덜 뾰족함
ㅇ 그래프를 이용한 자료 정리
- 히스토그램 : 연속형 데이터, 도수분포표를 그래프로 나타낸 것
- 막대그래프 : 범주형 데이터
- 줄기-잎 그림 : 데이터를 줄기와 잎의 모양으로 그린 그림
- 상자그림 : 다섯 숫자 요약을 통해 그림으로 표현 (최솟값, Q1, Q2, Q3, 최댓값)
# 히스토그램은 분포의 봉우리와 산포를 확인할 수 있다.
# 히스토그램은 표본크기와 관계없이 데이터 분포를 정확하게 진단할 수 있다. (X)
# 히스토그램에서 양쪽 끝의 고립된 막대가 특이치
# 연속형 자료에 적합하며, 범주형 자료는 막대그래프를 이용한다.
ㅇ 인과관계
- 종속변수(반응변수, 결과변수, Y) : 다른 변수의 영향을 받는 변수
- 독립변수(설명변수, 예측 변수, X) : 영향을 주는 변수
- 산점도 : 좌표평명 위에 점들로 표현한 그래프
- 공분산 : 두 확률변수 X, Y의 방향의 조합(선형선)
ㅇ 상관분석
- 두 변수간의 관계의 정도를 알아보기 위함
- 두 변수의 상관관계를 알아보기 위해 상관계수를 이용
# 상관분석은 두 변수 간의 연관 강도를 나타낼 뿐 인과관계를 설명해 주는 것은 아니다.
ㅇ 상관분석의 유형
- 피어슨 : 등간 척도, 연속형 변수, 정규성 가정, 적률 상관계수
- 스피어만 : 서열척도, 순서형 변수, 비모수적 방법, 순위 상관계수
# 스피어만 상관분석은 두 변수 간의 비선형적인 관계는 나타내지 못한다. (X)
# 스피어만 상관분석은 연속형외에 이산형도 가능하다.
# 스피어만 상관분석은 관계가 랜덤이거나 존재하지 않을 경우 상관 계수 모두 0에 가깝다.
# 스피어만 상관 계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 한다.
# 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정하는 것으로 피어슨의 상광 계수가 있다.
# 비선형적인 관계도 파악할 수 있는 상관계수?
--> 3) 스피어만 상관계수(상)
# 상관분석은 종속변수 값을 예측하는 선형모형 추출 방법이다. (X)
# 피어슨의 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있다.
# 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나태낼 수 있다.
# Cor.test() 함수를 사용해 상관계수 검정을 수행하고, 유의성 거점을 판단할 수 있다.
ㅇ 상관분석을 위한 R 코드
- 분산 : var
- 공분산 : cov
- 상관관계 : cor
ㅇ 상관분석 예
-----------------------------------------------------------------
> data(mtcars)
> a <- mtcars$mpg
> b <- mtcars$hp
> cor(a,b) # 공분산 (음의 방향성)
[1] -0.7761684
> cov(a,b) # 상관계수 (강한 음의 상관관계)
[1] -320.7321
> cor.test(a, b, method='pearson')
Pearson's product-moment correlation
data: a and b
t = -6.7424, df = 30, p-value = 1.788e-07 # mpg와 hp가 상관관계가 있다는 해석
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8852686 -0.5860994
sample estimates:
cor -0.7761684
-----------------------------------------------------------------
'Study of GifMan > ADSP' 카테고리의 다른 글
ADSP 기출문제 요약집 3-4 시계열 분석 (0) | 2020.04.21 |
---|---|
ADSP 기출문제 요약집 3-3 회귀분석 (0) | 2020.04.19 |
ADSP 기출문제 요약집 3-1 통계분석의 이해 (0) | 2020.04.17 |
ADSP 기출문제 요약집 2-2 분석 마스터 플랜 (2) | 2020.04.16 |
ADSP 기출문제 요약집 2-1 데이터 분석 기획의 이해 (0) | 2020.04.15 |