0

点赞

收藏

分享

第2部分：物联网模式在行动

上古神龙 2024-07-24 阅读 28

标签: 爬虫学习

网络爬虫（Web Crawler），也被称为网页蜘蛛（Spider）、网页机器人（Robot）或爬虫（Crawler），是一种自动浏览互联网的程序。它的主要任务是按照一定的算法扫描和访问网页，从互联网上下载网页内容，然后智能地解析和提取网页中的信息。

认识爬虫

爬虫分类

爬虫可分为三大类：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫。

通用网络爬虫（General-purpose Crawler 或 Universal Crawler）
聚焦网络爬虫（Focused Crawler 或 Theme-based Crawler）
增量式网络爬虫（Incremental Crawler）

为什么用Python做爬虫

编写爬虫的流程

Python 编写爬虫程序的流程：

先由 urllib 模块的 request 方法打开 URL 得到网页 HTML 对象。
使用浏览器打开网页源代码分析网页结构以及元素节点。
通过 Beautiful Soup 或则正则表达式提取数据。
存储数据到本地磁盘或数据库。

当然也不局限于上述一种流程。

0 条评论

关注