0
点赞
收藏
分享

微信扫一扫

《python3网路爬虫开发实战》之学习记录Day1

zhoulujun 2022-04-15 阅读 36

爬虫系列文章目录


`

文章目录


前言

提示:关于买到崔庆才爬虫书进而决定用博客记录自己的学习:

前段时间用爬虫接单感慨颇多,很多时候爬虫的逻辑书写都没有问题,数据也能够进行采集,但是往往数据量一上来就束手无策,虽然也学过一些多线程、协程的概念,也知道ip代理来破解ip受限这一反爬机制,但是总觉得自己的知识太过零散,之前报了一个js逆向和app逆向的爬虫课,最近也要捡起来了。昨天刚拿到杭电同学向我推荐的崔庆才老师的书,我翻看了以下目录发现其所讲的爬虫知识非常的系统,条理很清晰,前面大概十几章我在之前的实战中均有接触,我相信学起来会很快,但也有一些章节我尚未涉足,比如分布式爬虫,app逆向,android逆向,我想这些是真正的最前沿的爬虫知识,我也希望自己能在五月底之前好好吃头这本《python3网络爬虫开发实战第二版》。为之后去杭州应聘爬虫岗位的相关工作打下一定的基础。爬虫全书916页,今天是第一天,学习目标三小时,希望能完成三十页的学习,因为前面都是我之前接触过的,我相信学起来会很快,加油吧!!!!!!!!!


一、HTTP的基本原理

这里的知识大部分之前都有接触,这本书里讲的比较偏概念,大致记录一下我学到的内容

1.1 Http做了哪些优化

A、 二进制分层帧

再http1.x版本中,不管是请求还是响应,他们都是文本格式传输的,其头部、实体之间也是用文本换行分隔符分割开的。http2.0版本进行了优化,将文本格式修改为了二进制格式,使得解析起来更加高校。同时将请求和响应数据分割为更小的帧,并采用二进制编码

B、多路复用

在1.x版本中,如果客户想发起多个并行请求以提升性能,则必须使用多个TCP连接,而且浏览器为了控制资源,还会对单域名有6-8个TCP连接请求的限制。但是在HTTP2.0中,由于有了二进制分帧技术的加持,2.0不在意TCP连接的方式去实现多路并行了,客户端和服务器可以将HTTP消息分解为互不依赖的帧,然后交错发送,最后再另一端把他们重新组装起来。

C、流控制

流控制是一种组织发送方向接收方发送大量数据的机制,以免超出后者的需求或者处理能力。有点像咱们408里面的流量控制

D、服务端推送

服务器可以对一个客户端请求发送多个响应。换句话说,你要的我给你,你可能需要的(即使你没请求)我也给你。比如我请求HTML信息,我把与其相关的js、css也一起给你,而不必扽会感到客户端解析HTML时在发送请求

二、Web网页基础

这里讲的很浅,基本都学过

三、爬虫原理

讲的一些浅显的爬虫原理,没啥特别的

四 session和cookie

一些关于session和cookie的知识,讲的比较细,之前学过,快速带过。主要额外知道了会话cookie和持久cookie,其实所谓的会话cookie是浏览器关闭cookie就失效,持久cookie会将cookie保存到客户端的硬盘中。

五 代理的基本原理

这里浅讲了一下代理,也是我之前爬虫的痛点,不会使用代理,在后面的章节再学到代理的时候我一定要自己手动搭建一个代理池来维护自己的代理!

六、多线程和多进程的基本原理

基础的多进程和多线程的概念,学过408的小伙伴应该都懂,还是比较浅显的

总结

完成了今天的30页学习任务,估计才花了两个小时作用,第一章就搞定了,明天开始基本库的使用,相信也不会很难,加油把

举报

相关推荐

0 条评论