0
点赞
收藏
分享

微信扫一扫

【shell】shell脚本实战-awk基本介绍


文章目录

  • 前言
  • 概念
  • awk常用的选项和命令

  • awk的选项

  • awk的环境变量
  • awk的运算符

  • awk的内置字符串函数

前言

我们之前学习过grep,sed,这两个工具的作用如下:
grep和egrep:文本过滤的
sed:流编辑器,实现编辑的

今天我们要讨论的awk,是一个主要做文本输出的。

概念

AWK是一种优良的文本处理工具,Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言的最大功能取决于一个人所拥有的知识。awk命名:Alfred Aho Peter 、Weinberger和brian kernighan三个人的姓的缩写。

简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理

快速掌握awk的技巧:只要记住awk是以行为单位读入和输出的

awk常用的选项和命令

参数

含义

-F

指定字段一个或多个分割符 例如:-F’[:#/]’ 定义三个分隔符

-v

定义或修改一个awk内部的变量

NR

行号

FS

字段的分隔符,默认为空格,跟-F选择一样

OFS

输出的字段分隔符,默认为空格(即把空格替换成指定的字符串)

RS

输入记录的分割,以分割符分割之后,使之成为新的行(即读入行的时候遇到指定分隔符,就把分割替换成\n)。

ORS

输出的记录分隔符,默认为新行。(即读入行的时候遇到\n之后把\n用指定的分隔符代替,然后读入一行,并合并为同一行)

$NF

表示最后一列

$0

显示当前一整行

$N

N为数字(N>0),表示第几列。例如:$1表示用-F指定分隔符分隔后的第一列,N以此类推

{}

命令代码块,包含一条或多条命令

;

多条命令使用分号分隔

~

匹配字段,与==相比不是精确比较

!~

不匹配,不精确比较

==

等于,必须全部相等,精确比较

>

大于

<

小于

>=

大于等于

<=

小于等于

!=

不等于,精确比较

&&

逻辑与

||

逻辑或

+

匹配1个或1个以上

//

正则匹配符

print

输出、打印

awk的选项

选项

描述

-f progfile --file=progfile

从脚本文件中读取awk命令

-F fs --field-separator=fs

指定字段一个或多个分割符 例如:-F’[:#/]’ 定义三个分隔符

-v var=val --assign var=val

定义或修改一个awk内部的变量

-b --characters-as-bytes

将所有输入数据视为单字节字符。posix选项或覆盖这个选项

-c --traditional

在兼容模式下运行。在兼容模式下,gawk的行为与UNIX awk相同;没有一个可以识别特定于gn的扩展

-C --copyright

在标准输出和退出中成功打印GNU版权信息消息的简短版本

-d[file]–dump-variables[=file]

将全局变量的排序列表、它们的类型和最终值打印到文件中。如果没有提供文件,gawk使用一个名为awkvars的文件

-e ‘program-text’–source=‘program-text’

使用程序文本作为AWK程序源代码。这个选项允许轻松地将库函数(通过-f和-file选项使用)与在命令行中输入的源代码混合使用。它主要用于shell脚本中使用的中型到大型AWK程序

-E file --exec=file

与-f类似,这是最后一个处理的选项。这应该与#一起使用!脚本,特别是为CGI应用程序,以避免从URL向命令行传递选项或源代码(!)。这个选项禁止命令行变量赋值

-g --gen-pot

扫描和解析AWK程序,并在标准输出上生成GNU .pot(可移植对象模板)格式文件,其中包含程序中所有可本地化字符串的条目。程序本身没有执行。

-h --help

简短的打印帮助

-L [fatal] --lint[=fatal]

提供关于可疑或不可移植到其他AWK实现的构造的警告

-n --non-decimal-data

识别输入数据中的八进制和十六进制值

-N --use-lc-numeric

使用句点作为小数点

-O --optimize

在程序的内部表示上启用优化。目前,这包括简单的常数合并

-p[file] --profile[=file]

将分析数据发送到PROFIX文件。默认值是DouthPo.OUT

-P --posix

启动兼容模式;将有如下限制: <1>无法识别\x <2>当FS被设置为单个空间时,只有空格和Tab充当字段分隔符,换行符不被设置为分隔符 <3>之后行不能有?和: <4>关键字函数的同义词FUNC不被识别 <5>运算符=不能代替=

-r --re-interval

允许在正则表达式匹配中使用区间表达式

-R --command file

只有DGAWK。从文件读取存储的调试器命令

-S --sandbox

在沙盒模式下运行GOWK,禁用Stand()函数,用GETLIN输入重定向,输出Read打印和打印的方向,并加载动态扩展。命令执行(通过管道)也被禁用。这有效地阻止了脚本访问本地资源(除了 命令行中指定的文件)

-t --lint-old

提供对UNIX AWK原始版本不可移植的结构的警告

-V --version

打印AWK的版本信息

awk的环境变量

变量

描述

$N

N为数字(N>0),表示第几列。例如:$1表示用-F指定分隔符分隔后的第一列,N以此类推

$0

显示当前一整行(有多少行显示多少行)

$NF

表示最后一列$(NF-1)是倒数第二列

ARGC

命令行参数的数目

ARGIND

命令行中当前文件的位置(从0开始算)

ARGV

包含命令行参数的数组

CONVFMT

数字转换格式(默认值为%.6g)

ENVIRON

环境变量关联数组

ERRNO

最后一个系统错误的描述

FIELDWIDTHS

字段宽度列表(用空格键分隔)

FILENAME

当前文件名

NR

行号(当前记录数)

FNR

同NR,但相对于当前文件

FS

字段的分隔符,默认为空格,跟-F选择一样

OFS

输出的字段分隔符,默认为空格(即把空格替换成指定的字符串)

IGNORECASE

如果为真,则进行忽略大小写的匹配

NF

当前记录中的字段数

OFMT

数字的输出格式(默认值是%.6g)

RLENGTH

由match函数所匹配的字符串的长度

RS

输入记录的分割,以分割符分割之后,使之成为新的行(即读入行的时候遇到指定分隔符,就把分割替换成\n(默认是\n))

ORS

输出的记录分隔符,默认为新行。(即读入行的时候遇到\n之后把\n用指定的分隔符代替,然后读入一行,并合并为同一行)(默认值是一个换行符)

RSTART

由match函数所匹配的字符串的第一个位置

SUBSEP

数组下标分隔符(默认值是\034)

awk的运算符

运算符

描述

= += -= *= /= %= ^= **=

赋值

条件表达式?值1:值2

三目运算符

||

逻辑或

&&

逻辑与

~ ~!

匹配正则表达式和不匹配正则表达式

< <= > >= != ==

关系运算符

空格

连接符

+ -

加,减

* / %

乘,除与求余

+ - !

一元加,减和逻辑非

^ ***

幂运算符

++ –

增加或减少,作为前缀或后缀

$

字段引用

in

数组成员

awk的内置字符串函数

函数名称

描述

gsub(r,s)

在整个$0中用s代替r

gsub(r,s,t)

在整个t中用s替代r

index(s,t)

返回s中字符串t的第一位置

length(s)

返回s长度

match(s,r)

测试s是否包含匹配r的字符串

split(s,a,fs)

在fs上将s分成序列a

sprint(fmt,exp)

返回经fmt格式化后的exp

sub(r,s)

用$0中最左边最长的子串代替s

substr(s,p)

返回字符串s中从p开始的后缀部分

substr(s,p,n)

返回字符串s中从p开始长度为n的后缀部分


举报

相关推荐

0 条评论