python爬虫学习3
目录
常见状态响应码
- 200 请求正常,服务器正常返回数据
- 301 永久重定向,比如访问http://www.360buy.com的时候会重定向到www.jd.com
- 404 请求url在服务器上找不到(很常见吧?笑)
- 418 发送请求遇到服务器端反爬虫,服务器拒绝响应数据
- 500 服务器内部错误,可能是服务器出现BUG
状态码(全):
http请求的交互过程
- 客户端浏览器向网站所在的服务器发送请求
- 网站服务器接收到这个请求后进行解析、处理,然后返回响应对应的的数据给浏览器
- 浏览器中包含网页的源代码等内容(存在浏览器缓存中),浏览器再进行解析,最终将结果呈现给用户。
用Chrome分析网站
https://movie.douban.com/
- 按F12进入开发者模式
- elements 显示网页的结构
- console 控制台 显示一些网站的信息(招聘,警告等)
- sources 相当于文件夹,存放加载网页所需的源文件。elements与sources区别会因动态数据与静态数据而有所不同。
- network 显示加载页面时产生的所有请求
点击任意请求,会弹出该请求的详细信息:
今日结束,下接下篇