Shell编程之正则表达式与文本处理器-CFANZ编程社区

前言

正则表达式，又称规则表达式。（英语：Regular Expression），在代码中常简写为 regex、regexp 或 RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本，正则表达式不只有一种，而且 Linux 中不同的程序可能会使用不同的正则表达式，如：支持的工具：grep sed awk egrep

一、概述

通常用于判断语句中，用来检查某一字符串是否满足某一格式

正则表达式是由普通字符与元字符组成

普通字符包括大小写字母、数字、标点符号及一些其他符号

元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式

Linux 中常用的有两种正则表达式引擎

基础正则表达式：BRE

扩展正则表达式: ERE

二、基础正则表达式常见元字符

支持的工具: grep、egrep、sed、awk

Shell编程之正则表达式与文本处理器_字符串

Shell编程之正则表达式与文本处理器_字段_02

三、扩展正则表达式元字符

通常情况下会使用基础正则表达式就已经足够了，但有时为了简化整个指令，需要使用范围更广的扩展正则表达式。例如，使用基础正则表达式查询除文件中空白行与行首为“#”
支持的工具：egerp、awk

Shell编程之正则表达式与文本处理器_字段_03

+ egrep -n 'wo+d' test.txt           #查询"wood" "woood"      "woooooood"等字符串
? egrep -n 'bes?t' test.txt      #查询“bet”“best”这两个字符串
| egrep -n 'of|is|on' test.tx      #查询"of"或者"if"或者"on"字符串
()  egrep -n 't(a|e)st' test.txt     #查询"tast"或者"test"字符串
()+ egrep -n 'A(xyz)+C' test.txt     #查询开头的"A"结尾是"C"，中间有一个以上的"xyz"字符串的意思

四、grep

-a	将 binary 文件以 text 文件的方式搜寻数据
-c	计算找到 ‘搜寻字符串’ 的次数
-n	顺便输出行号
-v	反向选择，亦即显示出没有 ‘搜寻字符串’ 内容的那一行！
–color=auto	可以将找到的关键词部分加上颜色的显示

grep -c "the" web.sh        #统计the字符总行数;
grep -i "the" web.sh        #不区分大小写查找the所有的行
grep -v "the" web.sh

1.查找特定字符

grep -ni 'the' test.txt     
#查找特定字符非常简单，如执行此命令即可从 test.txt 文件中查找出特定字符“the”所在位置。其中“-n”表示显示行号、“-i”表示不区分大小写。命令执行后，符合匹配标准的字符， 字体颜色会变为红色（本章中全部通过加粗显示代替）
grep -vn 'the' test.txt
#若反向选择，如查找不包含“the”字符的行，则需要通过 grep 命令的“-v”选项实现，并配合“-n”一起使用显示行号

2.利用中括号“[]”来查找集合字符

grep -n 'sh[io]rt' test.txt
 #想要查找“shirt”与“short”这两个字符串时，可以发现这两个字符串均包含“sh”与“rt”。此时执行此命令即可同时查找到“shirt”与“short”这两个字符串，其中“[]”中无论有几个字符， 都仅代表一个字符，也就是说“[io]”表示匹配“i”或者“o”
 grep -n 'oo' test.txt
 #若要查找包含重复单个字符“oo”时，只需要执行此命令即可
 grep -n '[^w]oo' test.txt
 #若查找“oo”前面不是“w”的字符串，只需要通过集合字符的反向选择“[^]”来实现该目的。例如执行“grep -n‘[^w]oo’test.txt”命令表示在 test.txt 文本中查找“oo”前面不是“w”的字符串

3.查找行首“^”与行尾字符“$”

[root@localhost ~]# grep -n '^the' test.txt
4:the tongue is boneless but it breaks bones.12!
#基础正则表达式包含两个定位元字符：“^”（行首）与“$”（行尾）,如果想要查询以“the”字符串为行首的行，则可以通过“^”元字符来实现。
[root@localhost ~]# grep -n '^$' test.txt
10:
#查询空白行

“^”符号在元字符集合“[]”符号内外的作用是不一样的，在“[]”符号内表示反向选择，在“[]” 符号外则代表定位行首。反之，若想查找以某一特定字符结尾的行则可以使用“$”定位符。例如，执行以下命令即可实现查询以小数点（.）结尾的行。因为小数点（.）在正则表达式中也是一个元字符，所以在这里需要用转义字符“\”将具有特殊意义的字符转化成普通字符。

4.查找任意一个字符“.”与重复字符“*”

在正则表达式中小数点（.）也是一个元字符，代表任意一个字符。例如执行以下命令就可以查找“w??d”的字符串，即共有四个字符，以 w 开头 d 结尾。

[root@localhost ~]# grep -n 'w..d' test.txt
5:google is the best tools for search keyword.

8:a wood cross!
9:Actions speak louder than words

5.查找连续字符范围

如果想要限制一个范围内的重复的字符串该如何实现呢？例如，查找三到五个 o 的连续字符，这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。因为“{}”在 Shell 中具有特殊意义，所以在使用“{}”字符时，需要利用转义字符“\”，将“{}”字符转换成普通字符。“{}”字符的使用方法如下所示。

①查询两个o的字符

[root@localhost ~]# grep -n 'o\{2\}' test.txt
 3:The home of Football on BBC Sport online. 
 5:google is the best tools for search keyword. 
 8:a wood cross!
11:#woood # 12:#woooooood #
14:I bet this place is really spooky late at night!

②查询以 w 开头以 d 结尾，中间包含 2～5 个 o 的字符串

[root@localhost ~]# grep -n 'wo\{2,5\}d' test.txt
8:a wood cross! 11:#woood #

③查询以 w 开头以 d 结尾，中间包含 2 个或 2 个以上 o 的字符串

[root@localhost ~]# grep -n 'wo\{2,\}d' test.txt
8:a wood cross!

11:#woood # 12:#woooooood #

一、sed编辑器

sed是一种流编辑器，流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。

1、sed编辑器工作流程

sed编辑器可以根据命令来处理数据流中的数据，这些命令要么从命令行中输入，要么存储在一个命令文本文件中。

sed的工作流程主要包括读取、执行和显示三个过程:

●读取: sed从输入流 (文件、管道、标准输入) 中读取一行内容并存储到临时的缓冲区中(又称模式空间，pattern space)

●执行:默认情况下，所有的sed命令都在模式空间中顺序地执行，除非指定了行的地址，否则sed命令将会在所有的行上依次执行。

●显示:发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。在所有的文件内容都被处理完成之前，上述过程将重复执行,直至所有内容被处理完。

在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注意:默认情况下所有的sed命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

2、sed命令格式

命令格式：

sed -e '格式' 文件1 文件2 ...
sed -n -e ‘操作’ 文件1 文件2 ...
sed -f 脚本文件 文件1 文件2 ...
sed -i -e '操作' 文件1 文件2 ...

sed -e ' n {
操作1
操作2
...
} ' 文件1 文件2

3、常用选项

-e或- -expression=: 表示用指定命令来处理输入的文本文件，只有一个操作命令时可省略，一般在执行多个操作命令使用

f或- -file=: 表示用指定的脚本文件来处理输入的文本文件。

h或- -help: 显示帮助。

-n、- -quiet或silent:禁止sed编辑器输出，但可以与p命令一起使用完成输出。

-i: 直接修改目标文本文件。

Shell编程之正则表达式与文本处理器_sed_04

Shell编程之正则表达式与文本处理器_字段_05

4、常用操作

s:替换，替换指定字符。

d:删除，删除选定的行。

a:增加，在当前行下面增加一行指定内容。

i:插入，在选定行，上面插入一行指定内容。

c: 替换，将选定行替换为指定内容。

y:字符转换，转换前后的字符长度必须相同。

p: 打印，如果同时指定行，表示打印指定行;如果不指定行，则表示打印所有内容;如果有非打印字符，则以ASCII码输出。其通常与“-n”选项一起使用

[root@localhost d3]#sed -n 'p'  abc.txt 
one
two
three
four
five

=: 打印行号。

[root@localhost d3]#sed -n '=' abc.txt 
1
2
3
4
5

l (小写L):打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)

[root@localhost d3]#sed -n 'l' abc.txt 
one$
two$
three$
four$
five$

5、使用地址寻找

sed编辑器有2种寻址方式：
1、以数字形式表示行区间
2、用文本模式来过滤出行

Shell编程之正则表达式与文本处理器_字符串_06

sed -n '1p' abc.txt        #打印第一行

Shell编程之正则表达式与文本处理器_sed_07

sed -n '$p' abc.txt        #打印最后一行

Shell编程之正则表达式与文本处理器_字符串_08

sed -n '1,3p' abc.txt      #打印一到三行

Shell编程之正则表达式与文本处理器_字段_09

sed -n '3,$p' abc.txt      #打印三到最后一行

Shell编程之正则表达式与文本处理器_字符串_10

sed -n '1, +3p' abc.txt    #打印1之后的连续3行，即1-4行

Shell编程之正则表达式与文本处理器_字段_11

sed '3q' abc.txt           #打印前3行信息后退出，q表示退出

Shell编程之正则表达式与文本处理器_字符串_12

sed -n 'p;n' abc.txt       #打印奇数行; n表示移动到下一行

Shell编程之正则表达式与文本处理器_字符串_13

sed -n 'n;p' abc.txt       #打印偶数行

Shell编程之正则表达式与文本处理器_字符串_14

sed -n '2,${n;p}' abc.txt       #从第二行开始，n移动下一行，p打印，表示打印奇数行

Shell编程之正则表达式与文本处理器_sed_15

sed -n ' /user/p' /etc/passwd    #//搜索包含user的行进行打印，区分大小写

Shell编程之正则表达式与文本处理器_字段_16

sed -n ' /^a/p' /etc/passwd     #搜索以a开头的行进行打印

Shell编程之正则表达式与文本处理器_字段_17

sed -n '/bash$/p' /etc/passwd       #打印以bash结尾的行

Shell编程之正则表达式与文本处理器_字符串_18

sed -n '/ftp\|root/p' /etc/passwd   #搜索包含ftp或者root的行进行打印

Shell编程之正则表达式与文本处理器_字符串_19

Shell编程之正则表达式与文本处理器_字段_20

sed -nr '/ro{1,}t/p' /etc/passwd    #-r表示支持正则表达式

Shell编程之正则表达式与文本处理器_字段_21

6、删除行

sed 'd' abc.txt           #不指定行号，全部删除

Shell编程之正则表达式与文本处理器_字符串_22

sed '3d' abc.txt          #删除第三行

Shell编程之正则表达式与文本处理器_sed_23

sed '2,4d' abc.txt        #删除2-4行

Shell编程之正则表达式与文本处理器_字段_24

sed '$d' abc.txt          #删除最后一行

Shell编程之正则表达式与文本处理器_sed_25

sed '/^$/d' abc.txt       #删除空行

Shell编程之正则表达式与文本处理器_sed_26

Shell编程之正则表达式与文本处理器_字符串_27

sed '/nologin$/d' /etc/passwd      #删除包含nologin字符的行

Shell编程之正则表达式与文本处理器_字段_28

sed '/nologin$/!d' /etc/passwd     #不删除包含nologin的行

Shell编程之正则表达式与文本处理器_sed_29

sed '/2/,/3/d' abc.txt

Shell编程之正则表达式与文本处理器_字段_30

sed '/1/,/3/d' abc.txt

Shell编程之正则表达式与文本处理器_sed_31

7、替换

行范围 s/旧字符 /新字符 /替换标记

4种替换标记

数字：表明新字符串将替换第几处匹配的地方
g：表明新字符将会替换所有匹配的地方
p：打印与替换命令匹配的行，与-n一起使用
w 文件：将替换的结果写到文件中

sed -n 's/root/admin/p' /etc/passwd    #将匹配行的第一个root更改为admin

Shell编程之正则表达式与文本处理器_字符串_32

sed -n 's/root/admin/2p' /etc/passwd   #将匹配行的第二个root更改为admin

Shell编程之正则表达式与文本处理器_sed_33

sed -n 's/root/admin/gp' /etc/passwd   #将匹配行的所有root更改为admin

Shell编程之正则表达式与文本处理器_字符串_34

sed '1,20 s/^/#/' /etc/passwd          #1-20行行首添加#号

Shell编程之正则表达式与文本处理器_字符串_35

sed '^root/ s/$/#' /etc/passwd        #在以root开头的行，行尾添加#号

Shell编程之正则表达式与文本处理器_字符串_36

sed -f 123.sed 123.txt                #-f以指定的脚本文件来处理输入文件

Shell编程之正则表达式与文本处理器_sed_37

Shell编程之正则表达式与文本处理器_字段_38

sed '1,20w out.txt' /etc/passwd

Shell编程之正则表达式与文本处理器_sed_39

sed -n 's/\bin\/bash\/bin\/csh/p' /etc/passwd

Shell编程之正则表达式与文本处理器_字段_40

8、插入

sed '/55/c ABC' 123.txt  #将含有55的行，替换为ABC

Shell编程之正则表达式与文本处理器_字符串_41

sed '1,3a ABC' 123.txt   #在第一行到第三行，行下插入ABC

Shell编程之正则表达式与文本处理器_字符串_42

sed '1i ABC' 123.txt     #在第一行，行上插入ABC

Shell编程之正则表达式与文本处理器_sed_43

sed '5r /etc/resolv.conf' 123.txt  #在第五行后导入该文件内容

Shell编程之正则表达式与文本处理器_sed_44

一、sort命令

以行为单位对文件内容进行排序，也可以根据不同的数据类型来排序

语法格式：

sort 选项 参数
cat file | sort 选项

常用选项：

① -f：忽略大小写，默认会大写字母排在前面

② -b：忽略每行前面的空格

③ -n：按照数字进行排序

④ -r：反向排序

⑤ -u：等同uniq，表示相同的数据仅显示一行，去重

⑥ -t：指定字段分隔符，默认使用tab键分隔

⑦ -k：指定排序字段

⑧ -o <输出文件>：将排序后的结果转存至指定文件

Shell编程之正则表达式与文本处理器_字符串_45

Shell编程之正则表达式与文本处理器_sed_46

Shell编程之正则表达式与文本处理器_字段_47

二、uniq命令

用于报告或者忽略文件中连续的重复行，常与sort命令结合使用

语法格式：

uniq 选项 参数
cat file | uniq 选项

常用选项：
① -c：进行计数，并删除文件中重复出现的行
② -d：仅显示连续的重复行
③ -u：仅显示出现一次的行

Shell编程之正则表达式与文本处理器_字段_48

Shell编程之正则表达式与文本处理器_字段_49

三、tr命令

常用于对来自标准输入的字符进行替换、压缩和删除

语法格式：

tr 选项 参数

常用选项：

① -c：保留字符集1的字符，其他的字符（包括换行符\n）用字符集2替换

② -d：删除所有属于字符集1的字符

③ -s：将重复出现的字符串压缩为一个字符串，用字符集2 替换字符集1

④ -t：字符集2 替换字符集1，不加选项同结果

参数：

字符集1：

指定要转换或删除的原字符集。当执行转换操作时，必须使用参数”字符集2“指定转换操作时，必须使用参数”字符集2“指定转换的目标字符集。但执行删除操作时，不需要参数”字符集2“

字符集2：

指定要转换成的目标字符集

echo "abc" | tr 'a-z' 'A-Z'

echo -e "abc\ncabcdab" | tr -C "ab\n" "0"
echo -e "abc\ncabcdab" | tr -c "ab" "0"

echo 'hello world' | tr -d 'od'

echo "thissss is a text 1 innnnnnne." | tr -s 'sn'

删除空行
echo -e "aa\n\n\n\n\nbb" | tr -s "\n"
cat testfile4| tr -s "\n"

把路径变量中的冒号":"，替换成换行符"\n"
echo $PATH | tr -s ":" "\n"
echo -e "aa\n\n\n\n\nbb" | tr -s "\n" ":"

一、awk

1、工作原理：

逐行读取文本，默认以空格或tab键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。

sed命令常用于一整行的处理，而awk比较倾向于将一行分成多个“字段”然后再进行处理。awk信息的读入也是逐行读取的，执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||”表示“或”、“!”表示“非”；还可以进行简单的数学运算，如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。

2、命令格式：

awk 选项 '模式或条件 {操作}' 文件 1 文件 2 …
awk -f 脚本文件 文件 1 文件 2 …

3、awk常见的内建变量（可直接用）如下所示：

FS：列分割符。指定每行文本的字段分隔符，默认为空格或制表位。与"-F"作用相同

NF：当前处理的行的字段个数。

NR：当前处理的行的行号（序数）。

$0：当前处理的行的整行内容。

$n：当前处理行的第n个字段（第n列）。

FILENAME：被处理的文件名。

RS：行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是’\n’

4、按行输出文本:

awk '{print}' 1.txt         #输出所有内容
awk '{print $0}' 1.txt      #输出所有内容

Shell编程之正则表达式与文本处理器_字符串_50

Shell编程之正则表达式与文本处理器_字符串_51

awk 'NR==1,NR==3{print}' 1.txt  #输出第 1~3 行内容
awk '(NR>=1)&&(NR<=3){print}' 1.txt #输出第 1~3 行内容

Shell编程之正则表达式与文本处理器_字段_52

awk 'NR==1||NR==3{print}' testfile2   #输出第1行、第3行内容

Shell编程之正则表达式与文本处理器_字符串_53

awk '(NR%2)==1{print}' testfile2    #输出所有奇数行的内容
awk '(NR%2)==0{print}' testfile2    #输出所有偶数行的内容

Shell编程之正则表达式与文本处理器_字段_54

awk '/^root/{print}' /etc/passwd    #输出以 root 开头的行

Shell编程之正则表达式与文本处理器_sed_55

awk '/nologin$/{print}' /etc/passwd   #输出以 nologin 结尾的行

Shell编程之正则表达式与文本处理器_字段_56

awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd   #统计以/bin/bash 结尾的行数，等同于 grep -c "/bin/bash$"   /etc/passwd

Shell编程之正则表达式与文本处理器_字符串_57

Shell编程之正则表达式与文本处理器_sed_58

BEGIN模式表示，在处理指定的文本之前，需要先执行BEGIN模式中指定的动作；awk再处理指定的文本，之后再执行END模式中指定的动作，END{}语句块中，往往会放入打印结果等语句

5、按字段输出文本：

awk -F ":" '{print $3}' /etc/passwd     #输出每行中(以空格或制表位分隔)的第3个字段

Shell编程之正则表达式与文本处理器_字段_59

awk -F ":" '{print $1,$3}' /etc/passwd    #输出每行中的第1、3个字段

Shell编程之正则表达式与文本处理器_字段_60

awk -F ":" '$3<5{print $1,$3}' /etc/passwd  #输出第3个字段的值小于5的第1、3个字段内容

Shell编程之正则表达式与文本处理器_sed_61

awk -F ":" '!($3<200){print}' /etc/passwd   #输出第3个字段的值不小于200的行

Shell编程之正则表达式与文本处理器_sed_62

awk 'BEGIN {FS=":"};{if($3>=200){print}}' /etc/passwd #先处理完BEGIN的内容，再打印文本里面的内容

Shell编程之正则表达式与文本处理器_字符串_63

awk -F ":" '{max=($3>$4)?$3:$4;{print max}}' /etc/passwd    #($3>$4)?$3:$4三元运算符，如果第3个字段的值大于第4个字段的值，则把第3个字段的值赋给max，否则第4个字段的值赋给max

Shell编程之正则表达式与文本处理器_字段_64

awk -F ":" '{print NR,$0}' /etc/passwd    #输出每行内容和行号，每处理完一条记录，NR值加1

Shell编程之正则表达式与文本处理器_sed_65

awk -F ":" '$7~"/bash"{print $1}' /etc/passwd #输出以冒号分隔且第7个字段中包含/bash的行的第1个字段

Shell编程之正则表达式与文本处理器_字段_66

awk -F ":" '($1~"root")&&(NF==7){print $1,$2}' /etc/passwd  #输出第1个字段中包含root且有7个字段的行的第1、2个字段

Shell编程之正则表达式与文本处理器_字段_67

awk -F ":" '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd  #输出第7个字段既不为/bin/bash，也不为/sbin/nologin的所有行

Shell编程之正则表达式与文本处理器_sed_68

6、通过管道、双引号调用 Shell 命令：

echo $PATH | awk 'BEGIN{RS=":"};END{print NR}'    #统计以冒号分隔的文本段落数，END{}语句块中，往往会放入打印结果等语句

Shell编程之正则表达式与文本处理器_sed_69

awk -F: '/bash$/{print | "wc -l"}' /etc/passwd    #调用 wc -l 命令统计使用 bash 的用户个数,等同于 grep -c "bash$" /etc/passwd

Shell编程之正则表达式与文本处理器_字段_70

free -m | awk '/Mem:/ {print int($3/($3+$4)*100)}'  #查看当前内存使用百分比

Shell编程之正则表达式与文本处理器_字段_71

Shell编程之正则表达式与文本处理器_字符串_72

top -b -n 1 | grep Cpu | awk -F ',' '{print $4}' | awk '{print $1}'   #查看当前CPU空闲率，（-b -n 1 表示只需要1次的输出结果）

Shell编程之正则表达式与文本处理器_字符串_73

date -d "$(awk -F "." '{print $1}' /proc/uptime) second ago" +"%F %H:%M:%S"   #显示上次系统重启时间，等同于uptime；second ago为显示多少秒前的时间，+"%F %H:%M:%S"等同于+"%Y-%m-%d %H:%M:%S"的时间格式

Shell编程之正则表达式与文本处理器_sed_74

awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}"%"}'  #调用w命令,并用来统计在线用户数

Shell编程之正则表达式与文本处理器_字符串_75

awk 'BEGIN {"hostname" | getline ; {print $0}}'     #调用 hostname,并输出当前的主机名

Shell编程之正则表达式与文本处理器_字符串_76

当getline左右无重定向符“<”或“|”时，getline作用于当前文件，读入当前文件的第一行给其后跟的变量var或$0；应该注意到，由于awk在处理getline之前已经读入了一行，所以getline得到的返回结果是隔行的。

当getline左右有重定向符“<”或“|”时，getline则作用于定向输入文件，由于该文件是刚打开，并没有被awk读入一行，只是getline读入，那么getline返回的是该文件的第一行，而不是隔行。

seq 10 | awk '{print $0; getline}'   
seq 10 | awk '{getline; print $0}'

Shell编程之正则表达式与文本处理器_sed_77