2. 자료의 분산 (범위, 분산, 표준편차)

 
 

자료의 분산

 

 

 

 

 

분산

  • 분산이란 자료가 얼마나 퍼져 있는지를 의미한다.
  • 측정방법 : 범위, 분산, 표준편차

 

 


 

범위(range)

  • 범위란 데이터 값들 중에서 최대 데이터와 최소 데이터의 차이를 말한다.
 
 
 
 
 
 
weight <- c(72,67,60,78,82)
max(weight)-min(weight)
 
 
 
22
 

 

 


 

분산(variance)

  • 분산은 편차(각 값과 평균의 차이)를 구한뒤 음수가 되지 않도록 제곱한뒤 평균한 값이다.
 
 
 
 
 
 
var(weight)
 
 
 
76.2
 

 

 


 

표준편차

  • 표준편차는 분산에 제곱근을 취한 값이다.
 
 
 
 
 
 
sd(weight)
 
 
 
8.72926113711808
 

 

 


 

연습

  • train데이터로 연습해 봅시다.
 
 
 
 
 
 
setwd("C:/Users/KIIXXI/Documents/khu")
Data <- read.csv("train.csv")
head(Data)
 
 
 
A data.frame: 6 × 12
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
<int> <int> <int> <fct> <fct> <dbl> <int> <int> <fct> <dbl> <fct> <fct>
1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.2500   S
2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0 PC 17599 71.2833 C85 C
3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.9250   S
4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0 113803 53.1000 C123 S
5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.0500   S
6 0 3 Moran, Mr. James male NA 0 0 330877 8.4583   Q
 

 

 


 

1.  탑승객의 나이에 대한 평균,중앙값, 최빈값을 구하시오.

 
 
 
 
 
 
mean(Data$Age, na.rm =TRUE)
median(Data$Age, na.rm =TRUE)
freq <- table(Data$Age)
which.max(freq)
names(freq)[32]
 
 
 
29.6991176470588
 
28
 
24: 32
 
'24'
 

 

 


 

2.  pclass 중 가장 많은 수를 차지하는 좌석등급은 무엇인가그리고 몇명에 해당하는가 ?

 
 
 
 
 
 
freq <- table(Data$Pclass)
which.max(freq)
names(freq)[3]
length(which(Data$Pclass == 3))
 
 
 
3: 3
 
'3'
 
491
 

 

 


 

3. 탑승객중 최고령자와 최연소자의 나이를 구하시오.

 
 
 
 
 
 
max(Data$Age, na.rm = TRUE)
min(Data$Age, na.rm = TRUE)
 
 
 
80
 
0.42
 

 

 


 

4. 탑승객의 운임의 범위?

 
 
 
 
 
 
max(Data$Fare)-min(Data$Fare)
 
 
 
512.3292

댓글

Designed by JB FACTORY