R数据分析，数据筛选与提取-CFANZ编程社区

R数据分析，数据筛选与提取_数据

R数据分析，数据筛选与提取_数据分析_02

通常从系统中导出的数据字段有很多，并不是所有的字段都能用于数据分析中，这时候为了提高运算的速度，以及节省运算内存，需要筛选一些我们数据分析实际使用到的数据字段，通常筛选出数据字段后还需要做聚合运算，例如EXCEL中countif，sumif的用法，那么这些方法如何在R中使用呢？下面一起来学习。

示例工具：R x64 3.5.3、RStudio

本文讲解内容：数据筛选与提取

适用范围：数据筛选、多条件计数、多条件求和

R数据分析，数据筛选与提取_数据分析_03

本‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍次内容的学习需要先创建一组数据集，数据内容包含"ID"、"NAME"等五个字段，数据结果如下。

#手动创建数据表datadata<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c010"),"Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),                 AGE=c(23,20,23,25,27,24,26,31,26,30),"Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),                 SAL=c(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))

R数据分析，数据筛选与提取_字段_04

1 数据筛选

在R中数据筛选使用subset函数进行筛选，在subset函数的参数中添加逻辑运算和筛选条件，例如筛选条件等于、不等于、大于、小于，逻辑运算与、或、非的条件，这里用双等于号表示等于，如筛选名字中为Kevin的行，筛选结果如下所示：

#数据筛选subset(data,data$NAME=="Kevin")

R数据分析，数据筛选与提取_数据_05

筛选名字中不包含Kevin的行，不等于号用"!="表示，筛选结果如下所示：

#按非条件进行筛选subset(data,data$NAME!="Kevin")

R数据分析，数据筛选与提取_数据_06

subset函数可以添加多个条件，使用与的条件时用"&"符号连接起来，这里筛选年龄大于25且收入大于8000的行记录，结果如下：

#按与的条件筛选subset(data,data$AGE>25 & data$SAL>8000)

R数据分析，数据筛选与提取_数据分析_07

如果是或的条件，用"|"符号表示，筛选年龄大于25岁或者收入大于8000的行记录，筛选结果如下所示：

#按或的条件筛选subset(data,data$AGE>25 | data$SAL>8000)

R数据分析，数据筛选与提取_数据分析_08

2 数据提取

数据提取一般有三种方法进行提取，即按位置提取、按索引提取和按条件提取，在pandas中类似于loc和iloc的用法，可以按照位置、按照列索引以及添加筛选条件进行数据提取。

按位置提取数据使用中括号[ ]，在中括号中逗号前提取的是行，逗号后提取的是列，要提取第一行数据结果如下：

#提取数据表第一行data[1,]

R数据分析，数据筛选与提取_数据分析_09

要提取第一行到第五行的数据，在中括号中提取行1:5，逗号后面提取列可以不写，默认即可。

#提取数据表第一行至第五行data[1:5,]

R数据分析，数据筛选与提取_数据分析_10

提取数据表中第五列数据，省略逗号前行提取，直接写逗号后的列值即可。

#提取数据表第五列data[5]

R数据分析，数据筛选与提取_数据_11

提取第三列到第五列，逗号前的行提取默认不写，在逗号后的列提取第三列到第五列即可，提取结果如下：

#提取数据表第三列至第五列data[,3:5]

R数据分析，数据筛选与提取_数据分析_12

如果同时提取行和列，比如提取第三行第五列的数据，可以在逗号的前面和后面分别写上行数和列数。

#提取数据表第三行第五列data[3,5]

R数据分析，数据筛选与提取_数据_13

提取特定的数据区域，可以使用":"冒号来提取，行和列的位置不变，只需要改变数据区域的大小即可。

#提取数据表特定区域数据data[1:3,1:3]

R数据分析，数据筛选与提取_数据分析_14

按索引提取数据，这里分为按照行索引提取和列索引提取，需要提取的行索引和列索引用引号括起来，如下提取第三行的数据。

#按索引提取行数据data['3',]

R数据分析，数据筛选与提取_字段_15

如果按照索引提取多行，需要用括号括起来，在中括号中逗号前的位置用于提取行，逗号后的位置用于提取列，与按位置提取数据方法一致。

#按索引提取多行数据data[c('3','5'),]

R数据分析，数据筛选与提取_数据分析_16

按照列名提取数据，需要将列名用括号括起来即可。

#按列名称提取data['NAME']

R数据分析，数据筛选与提取_数据_17

需要提取特定行和特定列的数据，中括号中写上行索引和列索引即可。

#按索引提取行与列数据data['4','NAME']

R数据分析，数据筛选与提取_字段_18

提取多个行与多个列数据，需要用括号将行索引和列索引括起来。

#按索引提取多个行与列数据data[c('2','4'),c('NAME','SAL')]

R数据分析，数据筛选与提取_字段_19

除了按位置和按索引提取数据，还有一种方法是按条件提取数据，使用which函数，后面加特定的聚合条件，比如这里提取薪水最高的行记录。

#查找薪水最高的所在行data[which.max(data$SAL),]

R数据分析，数据筛选与提取_数据分析_20

同理，提取薪水最低的行记录。

#查看年龄最小的所在行data[which.min(data$AGE),]

R数据分析，数据筛选与提取_数据_21

3 聚合运算

筛选数据以及提取特定数据区域后，可以对这部分数据做聚合运算，与Excel中的筛选功能和countif和sumif功能相似，而countifs和sumifs是多条件计数和多条件求和。

对年龄大于25岁以及收入大于8000的薪水多条件求和，使用subset函数数据筛选后，借助sum函数实现多条件求和的功能。

#Excel中的sumifs()函数求和sum(subset(data,data$AGE>25 | data$SAL>8000)$SAL)

R数据分析，数据筛选与提取_数据分析_22

多条件计数使用length函数计数。

#Excel中的countifs()函数计数length(subset(data,data$AGE>25 | data$SAL>8000)$ID)

R数据分析，数据筛选与提取_数据_23

多条件求平均这里使用mean函数，求年龄大于25岁或者收入大于8000的平均薪水，数据结果如下所示。

#Excel中的averageifs()函数计数mean(subset(data,data$AGE>25 | data$SAL>8000)$SAL)

R数据分析，数据筛选与提取_字段_24