0
点赞
收藏
分享

微信扫一扫

Python高级爬虫实战-系统掌握反爬技能 挑战高薪MK

二)爬虫是什么

通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。

专业解释:网络爬虫

(三)我们需要学习什么来使用爬虫

   Python 基础语法学习(基础知识)

   HTML 页面的内容抓取(数据抓取)

   HTML 页面的数据提取(数据清洗)

   Scrapy 框架以及 scrapy-redis 分布式策略(第三方框架)

   爬虫(Spider)、 反爬虫(Anti-Spider)、 反反爬虫(Anti-Anti-Spider)之间的斗争…

Python高级爬虫实战-系统掌握反爬技能 挑战高薪MK_反爬虫

三、爬虫的种类

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

(一) 通用爬虫

通用网络爬虫是捜索引擎抓取系统(Baidu、 Google、 Yahoo 等) 的重要组成部分。 主要目的是将互联网上的网页下载到本地, 形成一个互联网内容的镜像备份。

(二) 通用搜索引擎(Search Engine) 工作原理

通用网络爬虫 从互联网中搜集网页, 采集信息, 这些网页信息用于为搜索引擎建立索引从而提供支持, 它决定着整个引擎系统的内容是否丰富, 信息是否即时, 因此其性能的优劣直接影响着搜索引擎的效果。

第一步: 抓取网页

搜索引擎网络爬虫的基本工作流程如下:



举报

相关推荐

0 条评论