第一次使用requests库,需要安装。执行: pip install requests即可。
主要有7个方法。
requests.request() 构造一个请求,支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE
网页有安全限制,常用的方法就是requests.get()和requests.head() ,重点掌握这两个就可以了。
爬取网页的通用代码框架
try:
r=requests.get(url,timeout=30)
r.raise_for_status() #200是正常,其他404等都是异常
r.encoding=r.apparent_encoding
return r.text
except:
return '异常错误'
下面是爬取百度新闻的代码:
import requests
url="http://news.baidu.com/"
try:
r=requests.get(url,timeout=30)
r.raise_for_status() #200是正常,其他404等都是异常
r.encoding=r.apparent_encoding
print(r.text[:1000])
except:
print( '异常错误')
_______________END______________