爬虫系列文章目录

文章目录

爬虫系列文章目录
前言
一、HTTP的基本原理
- 1.1 Http做了哪些优化
二、Web网页基础
三、爬虫原理
四 session和cookie
五代理的基本原理
六、多线程和多进程的基本原理
总结

前言

提示：关于买到崔庆才爬虫书进而决定用博客记录自己的学习：

前段时间用爬虫接单感慨颇多，很多时候爬虫的逻辑书写都没有问题，数据也能够进行采集，但是往往数据量一上来就束手无策，虽然也学过一些多线程、协程的概念，也知道ip代理来破解ip受限这一反爬机制，但是总觉得自己的知识太过零散，之前报了一个js逆向和app逆向的爬虫课，最近也要捡起来了。昨天刚拿到杭电同学向我推荐的崔庆才老师的书，我翻看了以下目录发现其所讲的爬虫知识非常的系统，条理很清晰，前面大概十几章我在之前的实战中均有接触，我相信学起来会很快，但也有一些章节我尚未涉足，比如分布式爬虫，app逆向，android逆向，我想这些是真正的最前沿的爬虫知识，我也希望自己能在五月底之前好好吃头这本《python3网络爬虫开发实战第二版》。为之后去杭州应聘爬虫岗位的相关工作打下一定的基础。爬虫全书916页，今天是第一天，学习目标三小时，希望能完成三十页的学习，因为前面都是我之前接触过的，我相信学起来会很快，加油吧！！！！！！！！！

一、HTTP的基本原理

这里的知识大部分之前都有接触，这本书里讲的比较偏概念，大致记录一下我学到的内容

1.1 Http做了哪些优化

A、二进制分层帧

再http1.x版本中，不管是请求还是响应，他们都是文本格式传输的，其头部、实体之间也是用文本换行分隔符分割开的。http2.0版本进行了优化，将文本格式修改为了二进制格式，使得解析起来更加高校。同时将请求和响应数据分割为更小的帧，并采用二进制编码

B、多路复用

在1.x版本中，如果客户想发起多个并行请求以提升性能，则必须使用多个TCP连接，而且浏览器为了控制资源，还会对单域名有6-8个TCP连接请求的限制。但是在HTTP2.0中，由于有了二进制分帧技术的加持，2.0不在意TCP连接的方式去实现多路并行了，客户端和服务器可以将HTTP消息分解为互不依赖的帧，然后交错发送，最后再另一端把他们重新组装起来。