0
点赞
收藏
分享

微信扫一扫

1.Python网络爬虫全部笔记

萧萧雨潇潇 2022-01-17 阅读 46
python爬虫
request		//请求
	请求方式:
			GET		数据在url中
			POST		向指定资源提交数据,请求服务器进行处理,提交的数据被包含在请求文本中,                          例如:提交表单或者上传文件
			HEAD		与GET方法一样,向服务器发出指定资源的请求
			PUT		向指定资源位置上传其最新内容
			OPTIONS	该方法可使服务器传回该资源所支持的所有http请求方法
			DELETE	请求服务器删除request URI所标识的资源
	request请求:
			请求url:url,即统一资源定位符。
			url是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
			url的格式由三个部分组成:
								协议,或称为服务方式,例如,http和ftp等
								存有该资源的主机IP地址,有时也包括端口号。
								第三部分是主机资源的具体地址,例如,目录和文件名等
			请求头:请求头包含请求时的头部信息,如User-Agent,Host和Cookies等信息。
			请求实体:请求时携带的数据,例如,提交表单数据时候的表单数据(POST请求)
	reponse响应
			响应状态:
					1XX:表示请求已被服务器接收,需要继续处理。
					2XX:表示请求已成功被服务器接收、理解和接收。
					3XX:表示需要后续操作才能完成这一请求,意味页面重定向。
					4XX:表示请求含有词法错误或者无法被指定,意味着请求错误。
					5XX:服务器在某个正确请求时发生错误,意味服务器错误。
			响应头:相应内容的类型、响应内容的长度、服务器信息和设置Cookie等
			响应体:响应体是response最主要的部分,它包含其请求资源的内容

requests:
	requests.get('')                  # GET请求
	requests.post('')                 # POST请求
	requests.put('')                  # PUT请求
	requests.delete('')               # DELETE请求
	requests.head('')                 # HEAD请求
	requests.options('')              # OPTIONS请求
	
	# 所请求网页的内容
		respone.text			
		respone.content
	#返回状态码
		respone.status_code		
	# 网页的头
		respone.headers			
	# 网页的cookie内容
		respone.cookies			
		respone.cookies.get_dict()
		respone.cookies.items()
	# 实际的网址
		respone.url				 
		respone.history
	# 所请求网页的编码方式
		respone.encoding
	# 将内容转化为指定格式
		response.content.decode("")
举报

相关推荐

0 条评论