0
点赞
收藏
分享

微信扫一扫

第2部分:物联网模式在行动

上古神龙 2024-07-24 阅读 25
爬虫学习

网络爬虫(Web Crawler),也被称为网页蜘蛛(Spider)、网页机器人(Robot)或爬虫(Crawler),是一种自动浏览互联网的程序。它的主要任务是按照一定的算法扫描和访问网页,从互联网上下载网页内容,然后智能地解析和提取网页中的信息。

认识爬虫

爬虫分类

爬虫可分为三大类:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫。

  1. 通用网络爬虫(General-purpose Crawler 或 Universal Crawler)

  2. 聚焦网络爬虫(Focused Crawler 或 Theme-based Crawler)

  3. 增量式网络爬虫(Incremental Crawler)

为什么用Python做爬虫

编写爬虫的流程

 Python 编写爬虫程序的流程:

  • 先由 urllib 模块的 request 方法打开 URL 得到网页 HTML 对象。
  • 使用浏览器打开网页源代码分析网页结构以及元素节点。
  • 通过 Beautiful Soup 或则正则表达式提取数据。
  • 存储数据到本地磁盘或数据库。

当然也不局限于上述一种流程。

举报

相关推荐

0 条评论