데이터 프레임 처리¶ 데이터 프레임 생성 1 : 파일에서 fileEncoding = "euc-kr" setwd("C:/Users/KIIXXI/Documents/khu") read.csv("test.csv") A data.frame: 5 × 3 item price sales 풍선 100 200 펌프 3000 5 테이프 300 20 플래카드 20000 1 색종이 150 100 데이터 프레임 생성2 : data.frame()¶ x
Feature Engineering¶ 데이터 다듬기¶ 전처리는 데이터를 분석하기에 적합한 형태로 만드는 것을 말한다. 수집된 데이터에서 필요한 속성을 선택해 데이터를 재구성, 결측값 및 이상치 처리, 변수를 조작하는 Feature Engineering등을 진행한다. 전처리 과정에 소요되는 시간은 전체 분석의 약 60%를 차지한다. 변수 조작¶ Feature Engineering은 데이터를 그대로 이용하기 어려운 경우에 변수에 적절한 과정을 거쳐 분석하기 좋게 만드는 과정이다. 주요방법은 Scaling, Binnig, Creating Feature, Creating Dummy등이 있다. Scaling¶ 비교되는 변수의 범위가 다른경우, 정규화를 통하여 비슷하게 맞출 수 있다. pampas, milk, ti..
집단 차이 분석¶ 추론 통계와 집단 차이 분석¶ 추론통계는 표본을 통해 모집단의 특성을 분석한다. 추론통계 함수를 이용하여 모집단과 표본 또는 두 집단 사이의 차이를 분석하는 방법을 살펴보자. 일표본 평균 (t.test)¶ t.test(x, alternative, mu) 하나의 모집단으로부터 표본을 추출하여 평균 신뢰구간 구하기 alternative = c("two.sided", "less","greater") # 대립가설 mu =0 # 귀무가설 : 모평균이 0이다. x
상관분석¶ 상관계수¶ 상관분석은 두 변수 사이의 관련성을 파악하는 방법이다. 대표적으로는 피어슨 상관 계수로 상관 분석을 한다. 피어슨 상관계수는 한 변수가 커질때 다른 변수가 함께 커지는 공분산을 표준편차로 나눈 값을 사용한다. 값은 -1과 1사이를 사용하고 0보다 큰 상관관계는 양의 상관관계 0보다 작으면 음의 상관관계이다. cor(iris$Sepal.Width, iris$Sepal.Length) -0.117569784133002 width 와 length 는 음의 상관관계라는 것을 알 수가 있다. 피어슨 상관계수¶ cor(x1,x2) 두 확률변수 사이의 선형적 상관 관계 측정 상관 계수 중 가장 대표적인 방법 상관 계수 값이 크면 데이터간 관계가 존재한다는 의미 x1
가설검정¶ 독립성 검정¶ chisq.test(xtabs (~x + y, data) 두변수 사이에 상관관계가 있는지 살펴본다. 성별과 운동략의 차이를 기록한 MASS::survey 데이터를 본다. library(MASS) data("survey") head(survey) Sex Wr.Hnd NW.Hnd W.Hnd Fold Pulse Clap Exer Smoke Height M.I Age Female 18.5 18.0 Right R on L 92 Left Some Never 173.00 Metric 18.250 Male 19.5 20.5 Left R on L 104 Left None Regul 177.80 Imperial 17.583 Male 18.0 13.3 Right L on R 87 Neither ..
표본 추출¶ 단순임의추출 1¶ - sample(x,n) - 동일한 확률로 표본을 추출한다. x
가설설정¶ 추론통계의 의의¶ 통계 조사에서 조사대상이 되는 전체 집단을 모집단이라고 한다. 모집단에서 뽑은 일부 자료를 표본이라고 한다. 이 표본으로부터 모수와 관련된 통계량들의 값을 계산하고 이를 이용하여 모집단의 특성을 알아내는 과정을 '추론통계분석' 이라고 한다. 추론 통계는 분석의 결과가 통계적으로 유의미한 지를 검증하는 역할을 한다. 가설 설정의 유형¶ 추론 통계에서는 귀무가설과 대립가설을 세운다. 그리고 귀무가설이 기각됨을 통하여 본래 알고자하는 대립가설이 통계적으로 유의미한 것인지를 확인한다. 귀무가설(영가설) : 알아보고자 하는 내용의 '반대'되는 내용의 가설이다. 귀무가설이 기각하면 자연스레 알아보고자 하는 내용이 유의미해진다. 대립가설(연구가설) : 알아보고자 하는 내용의 가설이다. e..
분포의 대칭성¶ 비대칭도 구하기¶ 왜도와 첨도¶ 왜도는 평균을 중심으로 한 분포의 비대칭 정도를 나타낸다. 기울어진 방향과 정도를 나타내는 양을 나타낸다. S > 0 면 오른쪽 방향으로 꼬리가 긴 모양. S < 0 면 왼쪽방향으로 꼬리가 긴 모양. 첨도는 정규분포와 비교하여 얼마나 뾰족하지를 나타낸다. 첨도가 클수록 뾰족해진다. #install.packages("moments") library(moments) x
데이터 요약¶ plot¶ 데이터를 요약하지 않고, 그래프로 그리면 다음과 같다. 데이터의 퍼짐의 정도를 시각적으로 확인할 수 있다. 하지만 특징을 한마디로 말하기는 어렵다. x
데이터의 위치¶ 구간별 데이터 파악¶ 사분위수(quantile)¶ 사분위수란 자료를 크기 순으로 배열하고, 누적 백분율을 4등분한 각 '점'에 해당하는 값을 말한다. 0%, 25%(1사분위) , 50%(2사분위), 75%(3사분위), 100% x
자료의 분산¶ 분산¶ 분산이란 자료가 얼마나 퍼져 있는지를 의미한다. 측정방법 : 범위, 분산, 표준편차 범위(range)¶ 범위란 데이터 값들 중에서 최대 데이터와 최소 데이터의 차이를 말한다. weight
중심위치 측정¶ 기술통계 의의¶ 빅데이터 분석을 위해서는 기존 사실에 대한 객관적인 수치를 찾아내려는 기술 통계를 기초로 한다. 이를 통해서 데이터의 특징이 수량화되어 정리 된다. 분석자는 데이터에 대한 이해를 하게 되어 이후 분석과정을 정밀하게 설계 할 수 있게 된다. 평균(mean)¶ weight