0

点赞

收藏

分享

自学Python:爬虫requests入门

小龟老师 2021-09-28 阅读 93

标签: 自学成长 Python 自学编程Python 日更成长营

第一次使用requests库，需要安装。执行： pip install requests即可。

主要有7个方法。

requests.request() 构造一个请求，支撑以下各方法的基础方法

requests.get() 获取HTML网页的主要方法，对应于HTTP的GET

requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD

requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST

requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT

requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH

requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

网页有安全限制，常用的方法就是requests.get()和requests.head() ，重点掌握这两个就可以了。

爬取网页的通用代码框架

try:

r=requests.get(url,timeout=30)

r.raise_for_status() #200是正常，其他404等都是异常

r.encoding=r.apparent_encoding

return r.text

except:

return '异常错误'

下面是爬取百度新闻的代码：

import requests

url="http://news.baidu.com/"

try:

r=requests.get(url,timeout=30)

r.raise_for_status() #200是正常，其他404等都是异常

r.encoding=r.apparent_encoding

print(r.text[:1000])

except:

print( '异常错误')

_______________END______________

0 条评论

关注