【爬虫日记】-CFANZ编程社区

【爬虫日记】

开始学习爬虫所遇到的问题合集：

1.Beautiful Soup类的基本元素

Tag：标签，最基本的信息单位，<>开头 <>结尾

Name:标签的名字，如<p> </p>的名字是'p'，tag.name

Attributes:标签的属性，字典格式，tag.attrs

NavigableString:标签内非属性字符串,tag.string

Comment:标签内字符串注释部分,,尖括号叹号表示注释开始

获取父类标签：tag.parent.name

遍历（获取子节点）,获取第一个ul里面所有子节点

soup = BeautifulSoup(data,'lxml')

t = soup.ul.children

获取子节点

soup = BeautifulSoup(data,'lxml')

t = soup.ul.contents

标签选择器

BeautifulSoup(res,"lxml")

BeautifulSoup(res,"parser")

Beautiful Soup:提供find()和find_all()

reg = re.search(表达式,msg,匹配方式)

0 条评论