0
点赞
收藏
分享

微信扫一扫

自学Python:爬虫requests入门

第一次使用requests库,需要安装。执行: pip install requests即可。

主要有7个方法。

requests.request() 构造一个请求,支撑以下各方法的基础方法

requests.get() 获取HTML网页的主要方法,对应于HTTP的GET

requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD

requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST

requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT

requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH

requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE

网页有安全限制,常用的方法就是requests.get()和requests.head() ,重点掌握这两个就可以了。

爬取网页的通用代码框架

try:

    r=requests.get(url,timeout=30)

    r.raise_for_status() #200是正常,其他404等都是异常

    r.encoding=r.apparent_encoding

    return r.text

except:

    return '异常错误'

下面是爬取百度新闻的代码:

import requests

url="http://news.baidu.com/"

try:

    r=requests.get(url,timeout=30)

    r.raise_for_status() #200是正常,其他404等都是异常

    r.encoding=r.apparent_encoding

    print(r.text[:1000])

except:

    print( '异常错误')

_______________END______________

举报

相关推荐

0 条评论