0
点赞
收藏
分享

微信扫一扫

十分钟上手正则表达式 上篇

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等

目录
  • ​​一、正则表达式的定义:​​
  • ​​二、正则表达式的类型​​
  • ​​三、定义 BRE 模式​​
  • ​​3.1 纯文本​​
  • ​​3.2 特殊字符​​
  • ​​3.3 锚字符​​
  • ​​3.3.1 锁定在行首​​
  • ​​3.3.2 锁定在行尾​​
  • ​​3.3.3 组合锚点​​
  • ​​3.4 点号字符​​
  • ​​3.5 字符组​​

一、正则表达式的定义:

正则表达式是你所定义的 模式模板 ( pattern template ), Linux 工具可以用它来过滤文本。 Linux工具(比如sed 编辑器或 gawk 程序)能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式,它就会被接受并进一步处理;如果数据不匹配模式,它就会被滤掉。

正则表达式模式匹配数据:

十分钟上手正则表达式 上篇_数据

正则表达式模式利用通配符来描述数据流中的一个或多个字符。 Linux 中有很多场景都可以 使用通配符来描述不确定的数据。【*】号在我们工作中就比较常用。

十分钟上手正则表达式 上篇_linux_02

​示例说明:

a.*参数会让ls命令只列出名字以a开头的文件。文件名中a之后可以有任意多个字符(包括什么也没有)。ls命令会读取目录中所有文件的信息,但只显示跟通配符匹配的文件的信息。


二、正则表达式的类型

使用正则表达式最大的问题在于有不止一种类型的正则表达式。 Linux 中的不同应用程序可能会用不同类型的正则表达式。这其中包括编程语言(Java 、 Perl 和 Python )、 Linux 实用工具(比 如sed 编辑器、 gawk 程序和 grep 工具)以及主流应用(比如 MySQL 和 PostgreSQL 数据库服务器)。正则表达式是通过正则表达式引擎( regular expression engine )实现的。正则表达式引擎是一套底层软件,负责解释正则表达式模式并使用这些模式进行文本匹配。

两种流行的正则表达式引擎:

  • POSIX基础正则表达式(basic regular expression,BRE)引擎
  • POSIX扩展正则表达式(extended regular expression,ERE)引擎

POSIX BRE引擎通常出现在依赖正则表达式进行文本过滤的编程语言中。它为常见模式提供了高级模式符号和特殊符号,比如匹配数字、单词以及按字母排序的字符。awk程序用ERE引擎来处理它的正则表达式模式。

说明:

由于实现正则表达式的方法太多,很难用一个简洁的描述来涵盖所有可能的正则表达式。后面会结合sed和awk演示最常见的正则表达式。


三、定义 BRE 模式

最基本的 BRE模式是匹配数据流中的文本字符。下面会演示如何在正则表达式中定义文本以及会得到什么样的结果。


3.1 纯文本

十分钟上手正则表达式 上篇_数据_03

演示说明:

模式定义了一个单词 test 。 sed 编辑器和 gawk 程序脚本用它们各自的 print 命令打印出匹配该正则表达式模式的所有行。由于echo 语句在文本字符串中包含了单词 test ,数据流文本能够匹配所定义的正则表达式模式,编辑器能显示该行。

正则表达式是区分大小写的:

十分钟上手正则表达式 上篇_正则表达式_04

演示说明:

第一次尝试没能匹配成功,因为 this 在字符串中并不都是小写,而第二次尝试在模式中使 用大写字母,所以能正常输出。

在正则表达式中,你不用写出整个单词。只要定义的文本出现在数据流中,正则表达式就能 够匹配。

十分钟上手正则表达式 上篇_正则表达式_05

演示说明:

数据流中的文本是 books ,在数据中含有正则表达式 book ,因此正则表达式模式跟数据匹配。

在正则表达式中,空格和其他的字符并没有什么区别。

十分钟上手正则表达式 上篇_正则表达式_06


示例说明:

使用特殊字符组可以很方便地定义区间。可以用 [[:digit:]] 来代替区间 [0-9] 。


3.9 星号【*】

在字符后面放置星号表明该字符必须在匹配模式的文本中出现 0 次或多次。

十分钟上手正则表达式 上篇_linux_07


举报

相关推荐

0 条评论