0

点赞

收藏

分享

Java数据采集实训--网页数据结构的分析

阎小妍 2022-03-30 阅读 66

标签: eclipse hadoop hdfs 爬虫

目录

一、HTTP 请求过程

二、 HTTP响应

1) HTTP响应状态码

三、HTTP请求

（1）、请求方法：

(2)、请求的网址:

(3)、请求头：

(4)请求体：

四、查看网页信息存储页面

一、HTTP 请求过程

1、使用Google 浏览器在浏览器的地址栏中输入要爬取数据网站的URL：

图1-1

2、在此页面进入开发者模式。可以通过快捷键F12、点击鼠标右键，选择检查，或以下方法打开。

图1-2

3、开发模式显示信息位置切换。（默认显示在右方，可以切到下方显示）

图1-3

4、切换到Network这一项查看请求页面的详细内容：（注：此处需要ctrl+R刷新一下才有内容出现。）

图1-4

5、等刷新完成，过滤栏中选择“Fetch/XHR”,找一个”positionAjax.json****”这个文件。

图1-5

6、点击该文件，出现如图所示页面。

图1-6

并且，在上面图1-6中有ResponseHeaders 和RequestHeaders两部分内容,它们分别代表响应头和请求头。

请求头里带有许多请求信息，例如浏览器标识、Cookies、Host等信息，服务器会根据请求头内的信息判断请求是否合法,进而做出对应的响应，响应中包含服务器的类型、文档类型、日期等信息，浏览器接收到响应后，会解析响应内容，进而呈现网页内容。接下来,将对HTTP请求和响应进行详细介绍。

二、 HTTP响应

1) HTTP响应状态码

HTTP响应状态码表示服务器返回给客户端的响应状态，例如，常见的响应代码200代表服务器正常响应，404代表页面未找到,500代表服务器内部发生错误等，更多HTTP响应代码可通过：https://tool.lu/httpcode/进行查看。在爬虫中，可以根据状态码来判断服务器响应状态,如状态码200,则证明成功返回数据。

2)响应头

响应头包含服务器对客户端请求的应答信息，如Content-Type、Server等。下面介绍一些常见的HTTP响应头。

图2-1

3)响应体

最重要的当属响应体的内容了。响应的正文数据都在响应体中,例如请求网页时，它的响应体就是网页的HTMIL代码:请求张图片时，它的响应体就是图片的二进制数据。

三、HTTP请求

（1）、请求方法：

常见的请求方法分为两种: GET请求和POST请求。此处为POST请求：

(2)、请求的网址:

指请求地址的URL链接。

(3)、请求头：

HTTP请求头是指在超文本传输协议的请求消息中协议头部分的组件。HTTP请求头用来准确描述正在获取的资源、服务器或者客户端的行为，定义了HTTP事务中的具体操作参数。下面是一些常见的HTTP请求头。

因此，请求头是请求的重要组成部分，在写爬虫时.大部分情况下都需要设定请求头。

(4)请求体：

请求体通常出现在POST请求中,用于存放POST请求中的表单数据，而对于GET请求而言，请求体为空。

四、查看网页信息存储页面

1、选择“Preview”选项。

图4-1

2、点开右边的“content“--”positionResult”--”result”。这样就可以看到json数据了。

图4-2

图4-3

学习到这里，我相信你们对网页数据结构的分析已经了解啦，不懂的可以说出来，以上所有介绍都是我在学习中，根据书本以及自己理解的总结，下面，就让我们进行实战项目吧！下一篇文章就是数据采集的实现过程啦！

0 条评论

关注