0
点赞
收藏
分享

微信扫一扫

R数据分析,数据筛选与提取

R数据分析,数据筛选与提取_数据

R数据分析,数据筛选与提取_数据分析_02

通常从系统中导出的数据字段有很多,并不是所有的字段都能用于数据分析中,这时候为了提高运算的速度,以及节省运算内存,需要筛选一些我们数据分析实际使用到的数据字段,通常筛选出数据字段后还需要做聚合运算,例如EXCEL中countif,sumif的用法,那么这些方法如何在R中使用呢?下面一起来学习。



示例工具:R x64 3.5.3、RStudio

本文讲解内容:数据筛选与提取

适用范围:数据筛选、多条件计数、多条件求和




R数据分析,数据筛选与提取_数据分析_03


本‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍次内容的学习需要先创建一组数据集,数据内容包含"ID"、"NAME"等五个字段,数据结果如下。

#手动创建数据表datadata<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c010"),"Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),                 AGE=c(23,20,23,25,27,24,26,31,26,30),"Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),                 SAL=c(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))

R数据分析,数据筛选与提取_字段_04

 1   数据筛选


在R中数据筛选使用subset函数进行筛选,在subset函数的参数中添加逻辑运算和筛选条件,例如筛选条件等于、不等于、大于、小于,逻辑运算与、或、非的条件,这里用双等于号表示等于,如筛选名字中为Kevin的行,筛选结果如下所示:



#数据筛选subset(data,data$NAME=="Kevin")

R数据分析,数据筛选与提取_数据_05

筛选名字中不包含Kevin的行,不等于号用"!="表示,筛选结果如下所示:



#按非条件进行筛选subset(data,data$NAME!="Kevin")

R数据分析,数据筛选与提取_数据_06

subset函数可以添加多个条件,使用与的条件时用"&"符号连接起来,这里筛选年龄大于25且收入大于8000的行记录,结果如下:



#按与的条件筛选subset(data,data$AGE>25 & data$SAL>8000)

R数据分析,数据筛选与提取_数据分析_07

如果是或的条件,用"|"符号表示,筛选年龄大于25岁或者收入大于8000的行记录,筛选结果如下所示:



#按或的条件筛选subset(data,data$AGE>25 | data$SAL>8000)

R数据分析,数据筛选与提取_数据分析_08

 2   数据提取

数据提取一般有三种方法进行提取,即按位置提取、按索引提取和按条件提取,在pandas中类似于loc和iloc的用法,可以按照位置、按照列索引以及添加筛选条件进行数据提取。

按位置提取数据使用中括号[ ],在中括号中逗号前提取的是行,逗号后提取的是列,要提取第一行数据结果如下:



#提取数据表第一行data[1,]

R数据分析,数据筛选与提取_数据分析_09

要提取第一行到第五行的数据,在中括号中提取行1:5,逗号后面提取列可以不写,默认即可。



#提取数据表第一行至第五行data[1:5,]

R数据分析,数据筛选与提取_数据分析_10

提取数据表中第五列数据,省略逗号前行提取,直接写逗号后的列值即可。



#提取数据表第五列data[5]

R数据分析,数据筛选与提取_数据_11

提取第三列到第五列,逗号前的行提取默认不写,在逗号后的列提取第三列到第五列即可,提取结果如下:



#提取数据表第三列至第五列data[,3:5]

R数据分析,数据筛选与提取_数据分析_12

如果同时提取行和列,比如提取第三行第五列的数据,可以在逗号的前面和后面分别写上行数和列数。



#提取数据表第三行第五列data[3,5]

R数据分析,数据筛选与提取_数据_13

提取特定的数据区域,可以使用":"冒号来提取,行和列的位置不变,只需要改变数据区域的大小即可。



#提取数据表特定区域数据data[1:3,1:3]

R数据分析,数据筛选与提取_数据分析_14

按索引提取数据,这里分为按照行索引提取和列索引提取,需要提取的行索引和列索引用引号括起来 ,如下提取第三行的数据。



#按索引提取行数据data['3',]

R数据分析,数据筛选与提取_字段_15

如果按照索引提取多行,需要用括号括起来,在中括号中逗号前的位置用于提取行,逗号后的位置用于提取列,与按位置提取数据方法一致。



#按索引提取多行数据data[c('3','5'),]

R数据分析,数据筛选与提取_数据分析_16

按照列名提取数据,需要将列名用括号括起来即可。



#按列名称提取data['NAME']

R数据分析,数据筛选与提取_数据_17

需要提取特定行和特定列的数据,中括号中写上行索引和列索引即可。



#按索引提取行与列数据data['4','NAME']

R数据分析,数据筛选与提取_字段_18

提取多个行与多个列数据,需要用括号将行索引和列索引括起来。



#按索引提取多个行与列数据data[c('2','4'),c('NAME','SAL')]

R数据分析,数据筛选与提取_字段_19

除了按位置和按索引提取数据,还有一种方法是按条件提取数据,使用which函数,后面加特定的聚合条件,比如这里提取薪水最高的行记录。



#查找薪水最高的所在行data[which.max(data$SAL),]

R数据分析,数据筛选与提取_数据分析_20

同理,提取薪水最低的行记录。



#查看年龄最小的所在行data[which.min(data$AGE),]

R数据分析,数据筛选与提取_数据_21

 3   聚合运算

筛选数据以及提取特定数据区域后,可以对这部分数据做聚合运算,与Excel中的筛选功能和countif和sumif功能相似,而countifs和sumifs是多条件计数和多条件求和。

对年龄大于25岁以及收入大于8000的薪水多条件求和,使用subset函数数据筛选后,借助sum函数实现多条件求和的功能。



#Excel中的sumifs()函数求和sum(subset(data,data$AGE>25 | data$SAL>8000)$SAL)

R数据分析,数据筛选与提取_数据分析_22

多条件计数使用length函数计数。



#Excel中的countifs()函数计数length(subset(data,data$AGE>25 | data$SAL>8000)$ID)

R数据分析,数据筛选与提取_数据_23

多条件求平均这里使用mean函数,求年龄大于25岁或者收入大于8000的平均薪水,数据结果如下所示。



#Excel中的averageifs()函数计数mean(subset(data,data$AGE>25 | data$SAL>8000)$SAL)

R数据分析,数据筛选与提取_字段_24


举报

相关推荐

0 条评论