0
点赞
收藏
分享

微信扫一扫

【DataMining week3】

三次方 2022-02-12 阅读 53

Web Scraping 流程

HTTP requests -> check response(因为获取可能失败) -> parse response -> store

HTTP

HTTP 协议,hypertext transfer protocol 超文本传输协议
HTML 数据文件

URL

URL,想要获取的文件在服务器中的地址
例子:
https://www.youtube.com/watch?v=asdsadad&key2=value2
protocal://subdomian.domain.extension/path?key1=value1&key2=value2

Response

Response_data
User-agent
Refer
Accept

练手网站 httpbin.org

CURL

curl 利用命令行进行网络连接

TCP-IP

在这里插入图片描述

应用层 HTTP协议

传输层 TCP协议,增加TCP头,包含端口号,序列号

三次握手

在这里插入图片描述SYN,synchronize
ACK,acknowledgement

四次挥手

在这里插入图片描述

网络互联层 IP协议,增加IP头部,包含源IP地址

根据端口号识别本机中正在进行通信的应用程序,并准确地将数据进行传输
在这里插入图片描述
IP地址由网络标识和主机标识两部分标识组成

网络访问层,增加以太网头,包含MAC地址

在数据链路中,MAC地址(Media Access Control Address)是用来标识同一个链路中不同计算机的一种识别码

物理层

在这里插入图片描述

request包

session,保持联系
HTML
selenium
json

举报

相关推荐

0 条评论