目录
一、HTTP 请求过程
1、使用Google 浏览器在浏览器的地址栏中输入要爬取数据网站的URL:
图1-1
2、在此页面进入开发者模式。可以通过快捷键F12、点击鼠标右键,选择检查,或以下方法打开。
图1-2
3、开发模式显示信息位置切换。(默认显示在右方,可以切到下方显示)
图1-3
4、切换到Network这一项查看请求页面的详细内容:(注:此处需要ctrl+R刷新一下才有内容出现。)
图1-4
5、等刷新完成,过滤栏中选择“Fetch/XHR”,找一个”positionAjax.json****”这个文件。
图1-5
6、点击该文件,出现如图所示页面。
图1-6
并且,在上面图1-6中有ResponseHeaders 和RequestHeaders两部分内容,它们分别代表响应头和请求头。
请求头里带有许多请求信息,例如浏览器标识、Cookies、Host等信息,服务器会根据请求头内的信息判断请求是否合法,进而做出对应的响应,响应中包含服务器的类型、文档类型、日期等信息,浏览器接收到响应后,会解析响应内容,进而呈现网页内容。接下来,将对HTTP请求和响应进行详细介绍。
二、 HTTP响应
1) HTTP响应状态码
HTTP响应状态码表示服务器返回给客户端的响应状态,例如,常见的响应代码200代表服务器正常响应,404代表页面未找到,500代表服务器内部发生错误等,更多HTTP响应代码可通过:https://tool.lu/httpcode/进行查看。在爬虫中,可以根据状态码来判断服务器响应状态,如状态码200,则证明成功返回数据。
2)响应头
响应头包含服务器对客户端请求的应答信息,如Content-Type、Server等。下面介绍一些常见的HTTP响应头。
图2-1
3)响应体
最重要的当属响应体的内容了。响应的正文数据都在响应体中,例如请求网页时,它的响应体就是网页的HTMIL代码:请求张图片时, 它的响应体就是图片 的二进制数据。
三、HTTP请求
(1)、请求方法:
常见的请求方法分为两种: GET请求和POST请求。此处为POST请求:
(2)、请求的网址:
指请求地址的URL链接。
(3)、请求头:
HTTP请求头是指在超文本传输协议的请求消息中协议头部分的组件。HTTP请求头用来准确描述正在获取的资源、服务器或者客户端的行为,定义了HTTP事务中的具体操作参数。下面是一些常见的HTTP请求头。
因此,请求头是请求的重要组成部分,在写爬虫时.大部分情况下都需要设定请求头。
(4)请求体:
请求体通常出现在POST请求中,用于存放POST请求中的表单数据,而对于GET请求而言,请求体为空。
四、查看网页信息存储页面
1、选择“Preview”选项。
图4-1
2、点开右边的“content“--”positionResult”--”result”。 这样就可以看到json数据了。
图4-2
图4-3
学习到这里,我相信你们对网页数据结构的分析已经了解啦,不懂的可以说出来,以上所有介绍都是我在学习中,根据书本以及自己理解的总结,下面,就让我们进行实战项目吧!下一篇文章就是数据采集的实现过程啦!