0
点赞
收藏
分享

微信扫一扫

buuctf web [极客大挑战 2019]LoveSQL

爱我中华8898 2023-09-21 阅读 36

目录

爬虫的分类

1.通用网络爬虫:搜索引擎的爬虫

2.聚焦网络爬虫:针对特定网页的爬虫

3.增量式网络爬虫

4.深层网络爬虫

通用爬虫与聚焦爬虫的原理

通用爬虫:

聚焦爬虫:


爬虫的分类

1.通用网络爬虫:搜索引擎的爬虫

2.聚焦网络爬虫:针对特定网页的爬虫

3.增量式网络爬虫

4.深层网络爬虫

后面我们主要学习聚焦爬虫,聚焦爬虫学会了,其他类型的爬虫也就能轻而易举的写出来

通用爬虫与聚焦爬虫的原理

通用爬虫:

第一步:抓取网页(url)

第二步:数据存储

第三步:预处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

第四步:提供检索服务,网站排名

搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。

聚焦爬虫

通常,我们会把获取响应,解析放在一个步骤中完成,所以说,聚焦爬虫的步骤,通俗的来讲一共四步

爬虫的基本分类和原理就介绍到这里了,我们下一期再见!

分享一张壁纸: 

举报

相关推荐

0 条评论