【shell】shell脚本实战-awk基本介绍-CFANZ编程社区

文章目录

前言
概念
awk常用的选项和命令
awk的选项
awk的环境变量
awk的运算符
awk的内置字符串函数

前言

我们之前学习过grep，sed，这两个工具的作用如下：
grep和egrep：文本过滤的
sed：流编辑器，实现编辑的

今天我们要讨论的awk，是一个主要做文本输出的。

概念

AWK是一种优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言的最大功能取决于一个人所拥有的知识。awk命名:Alfred Aho Peter 、Weinberger和brian kernighan三个人的姓的缩写。

简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理

快速掌握awk的技巧：只要记住awk是以行为单位读入和输出的。

awk常用的选项和命令

参数	含义
-F	指定字段一个或多个分割符例如:-F’[:#/]’ 定义三个分隔符
-v	定义或修改一个awk内部的变量
NR	行号
FS	字段的分隔符，默认为空格，跟-F选择一样
OFS	输出的字段分隔符，默认为空格(即把空格替换成指定的字符串)
RS	输入记录的分割，以分割符分割之后，使之成为新的行（即读入行的时候遇到指定分隔符，就把分割替换成\n）。
ORS	输出的记录分隔符，默认为新行。（即读入行的时候遇到\n之后把\n用指定的分隔符代替，然后读入一行，并合并为同一行）
$NF	表示最后一列
$0	显示当前一整行
$N	N为数字（N>0），表示第几列。例如：$1表示用-F指定分隔符分隔后的第一列，N以此类推
{}	命令代码块，包含一条或多条命令
;	多条命令使用分号分隔
~	匹配字段,与==相比不是精确比较
!~	不匹配，不精确比较
==	等于，必须全部相等，精确比较
>	大于
<	小于
>=	大于等于
<=	小于等于
!=	不等于，精确比较
&&	逻辑与
\|\|	逻辑或
+	匹配1个或1个以上
//	正则匹配符
print	输出、打印

awk的选项

选项	描述
-f progfile --file=progfile	从脚本文件中读取awk命令
-F fs --field-separator=fs	指定字段一个或多个分割符例如:-F’[:#/]’ 定义三个分隔符
-v var=val --assign var=val	定义或修改一个awk内部的变量
-b --characters-as-bytes	将所有输入数据视为单字节字符。posix选项或覆盖这个选项
-c --traditional	在兼容模式下运行。在兼容模式下,gawk的行为与UNIX awk相同;没有一个可以识别特定于gn的扩展
-C --copyright	在标准输出和退出中成功打印GNU版权信息消息的简短版本
-d[file]–dump-variables[=file]	将全局变量的排序列表、它们的类型和最终值打印到文件中。如果没有提供文件，gawk使用一个名为awkvars的文件
-e ‘program-text’–source=‘program-text’	使用程序文本作为AWK程序源代码。这个选项允许轻松地将库函数(通过-f和-file选项使用)与在命令行中输入的源代码混合使用。它主要用于shell脚本中使用的中型到大型AWK程序
-E file --exec=file	与-f类似，这是最后一个处理的选项。这应该与#一起使用!脚本，特别是为CGI应用程序，以避免从URL向命令行传递选项或源代码(!)。这个选项禁止命令行变量赋值
-g --gen-pot	扫描和解析AWK程序，并在标准输出上生成GNU .pot(可移植对象模板)格式文件，其中包含程序中所有可本地化字符串的条目。程序本身没有执行。
-h --help	简短的打印帮助
-L [fatal] --lint[=fatal]	提供关于可疑或不可移植到其他AWK实现的构造的警告
-n --non-decimal-data	识别输入数据中的八进制和十六进制值
-N --use-lc-numeric	使用句点作为小数点
-O --optimize	在程序的内部表示上启用优化。目前，这包括简单的常数合并
-p[file] --profile[=file]	将分析数据发送到PROFIX文件。默认值是DouthPo.OUT
-P --posix	启动兼容模式;将有如下限制： <1>无法识别\x <2>当FS被设置为单个空间时，只有空格和Tab充当字段分隔符，换行符不被设置为分隔符 <3>之后行不能有?和: <4>关键字函数的同义词FUNC不被识别 <5>运算符和=不能代替^和=
-r --re-interval	允许在正则表达式匹配中使用区间表达式
-R --command file	只有DGAWK。从文件读取存储的调试器命令
-S --sandbox	在沙盒模式下运行GOWK，禁用Stand（）函数，用GETLIN输入重定向，输出Read打印和打印的方向，并加载动态扩展。命令执行（通过管道)也被禁用。这有效地阻止了脚本访问本地资源（除了命令行中指定的文件）
-t --lint-old	提供对UNIX AWK原始版本不可移植的结构的警告
-V --version	打印AWK的版本信息

awk的环境变量

变量	描述
$N	N为数字(N>0)，表示第几列。例如：$1表示用-F指定分隔符分隔后的第一列，N以此类推
$0	显示当前一整行(有多少行显示多少行)
$NF	表示最后一列$(NF-1)是倒数第二列
ARGC	命令行参数的数目
ARGIND	命令行中当前文件的位置(从0开始算)
ARGV	包含命令行参数的数组
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组
ERRNO	最后一个系统错误的描述
FIELDWIDTHS	字段宽度列表(用空格键分隔)
FILENAME	当前文件名
NR	行号(当前记录数)
FNR	同NR，但相对于当前文件
FS	字段的分隔符，默认为空格，跟-F选择一样
OFS	输出的字段分隔符，默认为空格(即把空格替换成指定的字符串)
IGNORECASE	如果为真，则进行忽略大小写的匹配
NF	当前记录中的字段数
OFMT	数字的输出格式(默认值是%.6g)
RLENGTH	由match函数所匹配的字符串的长度
RS	输入记录的分割，以分割符分割之后，使之成为新的行（即读入行的时候遇到指定分隔符，就把分割替换成\n(默认是\n)）
ORS	输出的记录分隔符，默认为新行。（即读入行的时候遇到\n之后把\n用指定的分隔符代替，然后读入一行，并合并为同一行）(默认值是一个换行符)
RSTART	由match函数所匹配的字符串的第一个位置
SUBSEP	数组下标分隔符(默认值是\034)

awk的运算符

运算符	描述
= += -= = /= %= ^= *=	赋值
条件表达式?值1:值2	三目运算符
\|\|	逻辑或
&&	逻辑与
~ ~!	匹配正则表达式和不匹配正则表达式
< <= > >= != ==	关系运算符
空格	连接符
+ -	加，减
* / %	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	幂运算符
++ –	增加或减少，作为前缀或后缀
$	字段引用
in	数组成员

awk的内置字符串函数

函数名称	描述
gsub(r,s)	在整个$0中用s代替r
gsub(r,s,t)	在整个t中用s替代r
index(s,t)	返回s中字符串t的第一位置
length(s)	返回s长度
match(s,r)	测试s是否包含匹配r的字符串
split(s,a,fs)	在fs上将s分成序列a
sprint(fmt,exp)	返回经fmt格式化后的exp
sub(r,s)	用$0中最左边最长的子串代替s
substr(s,p)	返回字符串s中从p开始的后缀部分
substr(s,p,n)	返回字符串s中从p开始长度为n的后缀部分