网络爬虫(Web Crawler),也被称为网页蜘蛛(Spider)、网页机器人(Robot)或爬虫(Crawler),是一种自动浏览互联网的程序。它的主要任务是按照一定的算法扫描和访问网页,从互联网上下载网页内容,然后智能地解析和提取网页中的信息。
认识爬虫
爬虫分类
爬虫可分为三大类:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫。
-
通用网络爬虫(General-purpose Crawler 或 Universal Crawler)
-
聚焦网络爬虫(Focused Crawler 或 Theme-based Crawler)
-
增量式网络爬虫(Incremental Crawler)
为什么用Python做爬虫
编写爬虫的流程
Python 编写爬虫程序的流程:
- 先由 urllib 模块的 request 方法打开 URL 得到网页 HTML 对象。
- 使用浏览器打开网页源代码分析网页结构以及元素节点。
- 通过 Beautiful Soup 或则正则表达式提取数据。
- 存储数据到本地磁盘或数据库。
当然也不局限于上述一种流程。