目录
爬虫的分类
1.通用网络爬虫:搜索引擎的爬虫
2.聚焦网络爬虫:针对特定网页的爬虫
3.增量式网络爬虫
4.深层网络爬虫
后面我们主要学习聚焦爬虫,聚焦爬虫学会了,其他类型的爬虫也就能轻而易举的写出来
通用爬虫与聚焦爬虫的原理
通用爬虫:
第一步:抓取网页(url)
第二步:数据存储
第三步:预处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。
但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
第四步:提供检索服务,网站排名
搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。
聚焦爬虫:
通常,我们会把获取响应,解析放在一个步骤中完成,所以说,聚焦爬虫的步骤,通俗的来讲一共四步
爬虫的基本分类和原理就介绍到这里了,我们下一期再见!
分享一张壁纸: