Python高级爬虫实战-系统掌握反爬技能挑战高薪MK-CFANZ编程社区

Python高级爬虫实战-系统掌握反爬技能挑战高薪MK

二）爬虫是什么

通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来，然后使用一定的规则提取有价值的数据。

专业解释：网络爬虫

（三）我们需要学习什么来使用爬虫

Python 基础语法学习（基础知识）

HTML 页面的内容抓取（数据抓取）

HTML 页面的数据提取（数据清洗）

Scrapy 框架以及 scrapy-redis 分布式策略（第三方框架）

爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争…

Python高级爬虫实战-系统掌握反爬技能挑战高薪MK_反爬虫

三、爬虫的种类

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

（一）通用爬虫

通用网络爬虫是捜索引擎抓取系统（Baidu、 Google、 Yahoo 等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

（二）通用搜索引擎（Search Engine）工作原理

通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

第一步：抓取网页

搜索引擎网络爬虫的基本工作流程如下：