通常从系统中导出的数据字段有很多,并不是所有的字段都能用于数据分析中,这时候为了提高运算的速度,以及节省运算内存,需要筛选一些我们数据分析实际使用到的数据字段,通常筛选出数据字段后还需要做聚合运算,例如EXCEL中countif,sumif的用法,那么这些方法如何在R中使用呢?下面一起来学习。
示例工具:R x64 3.5.3、RStudio
本文讲解内容:数据筛选与提取
适用范围:数据筛选、多条件计数、多条件求和
本次内容的学习需要先创建一组数据集,数据内容包含"ID"、"NAME"等五个字段,数据结果如下。
#手动创建数据表datadata<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c010"),"Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"), AGE=c(23,20,23,25,27,24,26,31,26,30),"Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"), SAL=c(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))
1 数据筛选
在R中数据筛选使用subset函数进行筛选,在subset函数的参数中添加逻辑运算和筛选条件,例如筛选条件等于、不等于、大于、小于,逻辑运算与、或、非的条件,这里用双等于号表示等于,如筛选名字中为Kevin的行,筛选结果如下所示:
#数据筛选subset(data,data$NAME=="Kevin")
筛选名字中不包含Kevin的行,不等于号用"!="表示,筛选结果如下所示:
#按非条件进行筛选subset(data,data$NAME!="Kevin")
subset函数可以添加多个条件,使用与的条件时用"&"符号连接起来,这里筛选年龄大于25且收入大于8000的行记录,结果如下:
#按与的条件筛选subset(data,data$AGE>25 & data$SAL>8000)
如果是或的条件,用"|"符号表示,筛选年龄大于25岁或者收入大于8000的行记录,筛选结果如下所示:
#按或的条件筛选subset(data,data$AGE>25 | data$SAL>8000)
2 数据提取
数据提取一般有三种方法进行提取,即按位置提取、按索引提取和按条件提取,在pandas中类似于loc和iloc的用法,可以按照位置、按照列索引以及添加筛选条件进行数据提取。
按位置提取数据使用中括号[ ],在中括号中逗号前提取的是行,逗号后提取的是列,要提取第一行数据结果如下:
#提取数据表第一行data[1,]
要提取第一行到第五行的数据,在中括号中提取行1:5,逗号后面提取列可以不写,默认即可。
#提取数据表第一行至第五行data[1:5,]
提取数据表中第五列数据,省略逗号前行提取,直接写逗号后的列值即可。
#提取数据表第五列data[5]
提取第三列到第五列,逗号前的行提取默认不写,在逗号后的列提取第三列到第五列即可,提取结果如下:
#提取数据表第三列至第五列data[,3:5]
如果同时提取行和列,比如提取第三行第五列的数据,可以在逗号的前面和后面分别写上行数和列数。
#提取数据表第三行第五列data[3,5]
提取特定的数据区域,可以使用":"冒号来提取,行和列的位置不变,只需要改变数据区域的大小即可。
#提取数据表特定区域数据data[1:3,1:3]
按索引提取数据,这里分为按照行索引提取和列索引提取,需要提取的行索引和列索引用引号括起来 ,如下提取第三行的数据。
#按索引提取行数据data['3',]
如果按照索引提取多行,需要用括号括起来,在中括号中逗号前的位置用于提取行,逗号后的位置用于提取列,与按位置提取数据方法一致。
#按索引提取多行数据data[c('3','5'),]
按照列名提取数据,需要将列名用括号括起来即可。
#按列名称提取data['NAME']
需要提取特定行和特定列的数据,中括号中写上行索引和列索引即可。
#按索引提取行与列数据data['4','NAME']
提取多个行与多个列数据,需要用括号将行索引和列索引括起来。
#按索引提取多个行与列数据data[c('2','4'),c('NAME','SAL')]
除了按位置和按索引提取数据,还有一种方法是按条件提取数据,使用which函数,后面加特定的聚合条件,比如这里提取薪水最高的行记录。
#查找薪水最高的所在行data[which.max(data$SAL),]
同理,提取薪水最低的行记录。
#查看年龄最小的所在行data[which.min(data$AGE),]
3 聚合运算
筛选数据以及提取特定数据区域后,可以对这部分数据做聚合运算,与Excel中的筛选功能和countif和sumif功能相似,而countifs和sumifs是多条件计数和多条件求和。
对年龄大于25岁以及收入大于8000的薪水多条件求和,使用subset函数数据筛选后,借助sum函数实现多条件求和的功能。
#Excel中的sumifs()函数求和sum(subset(data,data$AGE>25 | data$SAL>8000)$SAL)
多条件计数使用length函数计数。
#Excel中的countifs()函数计数length(subset(data,data$AGE>25 | data$SAL>8000)$ID)
多条件求平均这里使用mean函数,求年龄大于25岁或者收入大于8000的平均薪水,数据结果如下所示。
#Excel中的averageifs()函数计数mean(subset(data,data$AGE>25 | data$SAL>8000)$SAL)