0
点赞
收藏
分享

微信扫一扫

【爬虫日记】

ixiaoyang8 2023-11-29 阅读 40

开始学习爬虫所遇到的问题合集:

1.Beautiful Soup类的基本元素

Tag:标签,最基本的信息单位,<>开头 <>结尾

Name:标签的名字,如<p> </p>的名字是'p',tag.name

Attributes:标签的属性,字典格式,tag.attrs

NavigableString:标签内非属性字符串,tag.string

Comment:标签内字符串注释部分,<!--注释-->,尖括号叹号表示注释开始

获取父类标签:tag.parent.name

遍历(获取子节点),获取第一个ul里面所有子节点

soup = BeautifulSoup(data,'lxml')

t = soup.ul.children

获取子节点

soup = BeautifulSoup(data,'lxml')

t = soup.ul.contents

标签选择器

2.解析方式:

BeautifulSoup(res,"lxml")

BeautifulSoup(res,"parser")

3.获取信息方式:

Beautiful Soup:提供find()和find_all()

3.正则获取

reg = re.search(表达式,msg,匹配方式)


举报

相关推荐

0 条评论