0
点赞
收藏
分享

微信扫一扫

R数据分析,数据描述与汇总

R数据分析,数据描述与汇总_数据分析

R数据分析,数据描述与汇总_数据分析_02

在前面的章节,学习R数据分析的内容,主要包含数据概览、数据清洗、数据预处理、数据筛选的内容,这一节主要介绍数据描述的内容,包含描述统计、标准差、协方差和相关系数的使用方法,以及数据汇总内容,下面一起来学习。



示例工具:R x64 3.5.3、RStudio

本文讲解内容:数据描述与汇总

适用范围:数据描述、数据汇总



R数据分析,数据描述与汇总_数据_03


本次内容的学习需要先创建一组数据集,数据内容包含"ID"、"NAME"等五个字段,数据结果如下。

#手动创建数据表datadata<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c010"),"Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),                 AGE=c(23,20,23,25,27,24,26,31,26,30),"Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),                 SAL=c(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))

R数据分析,数据描述与汇总_数据分析_04

一、数据描述


在Excel中,我们使用数据分析工具箱,即可对数据做描述统计、协方差、相关系数等分析,操作较为简单。

R数据分析,数据描述与汇总_字段_05

在R中使用summary函数对数据描述统计,summary函数是进行描述统计的函数,自动生成数据的数量,均值,标准差等数据,如下是对手动创建数据表data做描述统计。

在数据表data中,除"AGE"、"SAL"其他三个字段是非数值型字段,所以没有描述统计结果,而"AGE"、"SAL"两个数值型字段计算的描述统计结果如下所示:



#数据表描述统计summary(data)

R数据分析,数据描述与汇总_数据_06

除了对整个数据表data做描述统计,还可以对某一个数据列单独做描述统计,如下将SAL列索引出来,然后使用summary函数做描述统计。



#特定列描述统计summary(data$SAL)

R数据分析,数据描述与汇总_数据_07

对数据计数使用length函数,如下对整个数据表计数。



#数据表计数length(data)

R数据分析,数据描述与汇总_数据分析_08

还可以对数据表索引出某一列计数。



#特定列计数length(data$SAL)

R数据分析,数据描述与汇总_数据分析_09

求和使用sum函数,这里对收入求和。

#求和sum(data$SAL)

R数据分析,数据描述与汇总_字段_10

求平均收入使用mean函数。

#均值mean(data$SAL)

R数据分析,数据描述与汇总_数据分析_11

求收入的最大值使用max函数。



#最大值max(data$SAL)

R数据分析,数据描述与汇总_数据_12

求收入的最小值使用min函数。



#最小值min(data$SAL)

R数据分析,数据描述与汇总_数据分析_13

求年龄的方差使用var函数。



#方差var(data$AGE)

R数据分析,数据描述与汇总_数据分析_14

求年龄的标准差使用sd函数。



#标准差sd(data$AGE)

R数据分析,数据描述与汇总_字段_15

二、数据汇总


数据汇总内容包含数据分组和数据透视,在R中进行数据汇总的方法有很多,这里主要介绍table函数和tapply函数,下面分别介绍这两个函数的使用方法,使用table函数对薪水的分布情况计数。



#使用table()函数进行汇总计数table(data$SAL)

R数据分析,数据描述与汇总_字段_16

使用table函数 ,将年龄作为行字段,薪水情况作为列字段进行计数,类似EXCEL中的数据透视功能,汇总依据是计数。



#使用table()函数对两个字段进行汇总计数table(data$AGE,data$SAL)

R数据分析,数据描述与汇总_字段_17

除了汇总依据是计数,还可以将汇总的依据变为求和,使用tapply函数,对每个人的收入进行汇总,数据结果如下:



#按人名对薪资求和汇总tapply(data$SAL,data$NAME,sum)

R数据分析,数据描述与汇总_数据分析_18

如果是计数,在tapply函数中使用length函数,即对该字段计数。



#按年龄对ID计数汇总tapply(data$ID,data$AGE,length)

R数据分析,数据描述与汇总_字段_19

​​​​


举报

相关推荐

0 条评论