前言

python学习笔记（仅供学习使用）

一、介绍

mac
Python解释器3.8
集成开发环境Pycharm

使用编程语言所编写的一个用于爬取web或app数据的应用程序

找到要爬取的目标网站、发起请求
分析URL是如何变化的和提取有用的URL
提取有用的数据

遵守robots.txt协议

百度，Google等搜索引擎，从一些初识的URL扩展到整个网站，
主要为门户站点搜索引擎和大型网站服务采集数据

又称主题网络爬虫，选择性地爬行根据需求的主题相关页面的网络爬虫

对已下载网页采取增量式更新知识和只爬行新产生或者已经发生变化的网页爬虫

大部分内容不能通过静态的URL获取、隐藏在搜索表单后的、
只有用户提交一些关键词才能获得的网络页面

简单来说有url就爬。
在这里插入图片描述

简单来说符合需求的url才进行爬虫。
在这里插入图片描述

PHP是世界上最好的语言，但他天生不是做这爬虫的“材料”，
因为它对多线程、异步支持的不是很好，并发处理能力弱。
爬虫是工具性程序，对速度和效率要求比较高。

是Python爬虫最大的竞争对手。但是Java语言本身很笨重，代码量很大。
重构成本比较高，任何修改会导致代码大量改动。爬虫经常要修改采集代码。

运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。

语法优美、代码简洁、开发效率高、支持的模块多。
相关的HTTP请求模块和HTML解析模块非常丰富。
还有Scrapy和Scrapy-redis框架让我们开发爬虫变量异常简单。