0
点赞
收藏
分享

微信扫一扫

爬虫入门(1)正则表达式

1.元字符

一个符号匹配一堆内容。

爬虫常用:

\d         能够匹配一个数字(0-9)

\w         能够匹配数字、字母、下划线(0-9,a-z,A-Z,_)

\D ,\W   上述内容取反

[abc]      匹配字母a,b,c

[^abc]    除了a,b,c

.             除了换行符以外的其他所有内容都可以匹配(没错,最前面有个点)


2.量词

用于控制前面元字符出现的频次。

+:前面的元字符出现1次或多次

*:前面的元字符出现0次或多次,贪婪匹配

?:前面的元字符出现0次或1次


3.惰性匹配【重点】

例子:玩会手机游戏,晚上一起玩游戏,打游戏吧!

(1)正则匹配“玩会*.游戏”,匹配结果:

玩会手机游戏,晚上一起玩游戏,打游戏

【找到距离最远的“游戏”】

(2)正则匹配“玩会*.?游戏”,匹配结果:

玩会手机游戏

【惰性匹配,找距离XX最近的内容】


4.常用正则表达式测试网站

https://tool.oschina.net/regex

爬虫入门(1)正则表达式_python

举报

相关推荐

0 条评论