0
点赞
收藏
分享

微信扫一扫

[应用推荐]Web Scraper——轻量数据爬取利器

诗尚凝寒 2023-10-06 阅读 41

目录

解析URL

特殊情况:

请求响应格式说明

多次请求


解析URL

浏览器是一个具备很多功能的计算机,不仅仅是访问网络浏览信息,使用具体哪个功能是通过url的开头进行区分的,这部分也叫做协议

1.使用Http协议访问服务器:http

2.使用FTP协议下载上传文件:ftp

3.读取计算机本地文件:file

4.发送邮件:email

浏览器会根据URL来拆分出对应的数据从而生成请求信息得知具体的操作

b中的url示例代表的意思是:

使用http协议代表访问Web服务器,访问www.lab.glasscom.com这个服务器计算机下面dir1文件的file1.html文件

特殊情况:

1.不填写具体文件名,只列出访问的具体文件夹

www.lab.glasscom.com/dir1/

2.只填写服务器域名,没有填写文件夹名称

www.lab.glasscom.com/

3.省略末尾/文件夹名称

www.lab.glasscom.com

4.填写文件夹名称但是末尾没有/

www.lab.glasscom.com/dir1

客户端发送消息到服务器,服务器接受信息并处理之后返回响应消息给客户端

客户端对访问目标进行操作

访问目标也叫URI,是指代具体的文件或程序;操作这个部分是指POST,GET这些方法

url:定位符:通过服务器定位到某个目标文件

uri:标识符:用来标识一个目标资源,既可以通过url定位目标文件也可以通过其他身份标识资源,只要能够找到目标就行

服务器收到请求后也是同样的分析对哪个文件进行操作,之后将结果响应码存放到相应消息返回给客户端

举例:

服务器的目标程序接受到消息后处理完成将结果告知客户端

请求响应格式说明

服务器和客户端发送的http消息格式如下:

企业微信截图_16600119208710.png


  • 消息头的功能是用来存储额外的信息,比如:日期、客户端支持的数据类型、语言、压缩格式、客户端和服务器的软件名称和版本、数据有效期和最后更新时间等

  • 消息体是真正的数据,但是get方法通过uri就知道操作了不需要携带大量数据所以get方法没有这部分内容;post提交表单涉及大量数据,这些数据就是在这个地方存放的

  • 状态码是数字代表请求的结果用于给程序看的,而状态语是一段文字说明给开发者看的

多次请求

浏览器会在显示文字时搜索相应的标签,当遇到图片相关的标签时,会在屏幕上留出用来显示图片的空间,然后再次访问Web服务器,按照标签中指定的文件名向Web服务器请求获取相应的图片并显示在预留的空间中。

由于一条请求消息只能填写一个url,因此需要获取多个文件需要多次发送对每个文件的请求。

原文链接:网络探索之浏览器解析URL - 掘金 (juejin.cn)

举报

相关推荐

0 条评论