0

点赞

收藏

分享

buuctf web [极客大挑战 2019]LoveSQL

爱我中华8898 2023-09-21 阅读 43

标签: 爬虫 python 网络

目录

爬虫的分类

1.通用网络爬虫：搜索引擎的爬虫

2.聚焦网络爬虫：针对特定网页的爬虫

3.增量式网络爬虫

4.深层网络爬虫

通用爬虫与聚焦爬虫的原理

通用爬虫：

聚焦爬虫：

爬虫的分类

1.通用网络爬虫：搜索引擎的爬虫

2.聚焦网络爬虫：针对特定网页的爬虫

3.增量式网络爬虫

4.深层网络爬虫

后面我们主要学习聚焦爬虫，聚焦爬虫学会了，其他类型的爬虫也就能轻而易举的写出来

通用爬虫与聚焦爬虫的原理

通用爬虫：

第一步：抓取网页（url）

第二步：数据存储

第三步：预处理

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

但搜索引擎还不能处理图片、视频、Flash 这类非文字内容，也不能执行脚本和程序。

第四步：提供检索服务，网站排名

搜索引擎在对信息进行组织和处理后，为用户提供关键字检索服务，将用户检索相关的信息展示给用户。

聚焦爬虫：

通常，我们会把获取响应，解析放在一个步骤中完成，所以说，聚焦爬虫的步骤，通俗的来讲一共四步

爬虫的基本分类和原理就介绍到这里了，我们下一期再见！

分享一张壁纸：

0 条评论

爱我中华8898

关注