不错的python爬虫框架-CFANZ编程社区

不错的python爬虫框架_数据

ECommerceCrawlers

准确来说，这不是一个开发的框架，而是一宗几十个“爬虫代码”的汇总，请大家用于学习和研究。多种电商商品数据 🐍 爬虫，整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。对于精通爬虫的 pyer，这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护，确保即下即用，减少爬取的时间。

对于小白通过 ✍️ 实战项目，了解爬虫的从无到有。爬虫知识构建可以移步项目 wiki。爬虫可能是一件非常复杂、技术门槛很高的事情，但掌握正确的方法，在短时间内做到能够爬

Scrapy

是一个基于 Python 的开源网络爬虫框架，是最为流行的 Python 爬虫框架之一。Scrapy 官网提供了详细的使用文档和示例代码，支持使用 XPath 和 CSS 选择器从网页中提取数据，并可将数据输出为 JSON、CSV 等多种格式。Scrapy 框架提供了强大的中间件和插件机制，可以方便地实现数据去重、多线程并发等功能。

优点：

1、Scrapy 框架配置简单，易于上手；

2、Scrapy 框架自带文件存储管道功能，方便存储数据；

3、Scrapy 框架有良好的中间件和插件机制，可以根据需求拓展功能；

4、Scrapy 框架自带的去重功能完善，可减少重复爬取。

缺点：

1、Scrapy 框架对于处理 JavaScript 渲染的页面存在不足；

2、Scrapy 框架速度较慢，不适合处理大规模数据；

3、Scrapy 框架在爬取过程中容易被屏蔽。

PySpider

PySpider 是一个全功能的分布式爬虫框架，基于 Python 语言开发。PySpider 易于安装和使用，提供了简单有效的编程接口，支持使用 XPath 和 CSS 选择器从网页中提取数据，并可将数据输出为 JSON、CSV 等多种格式。PySpider 框架支持分布式爬虫，可以统一管理多个爬虫实例，并提供了完善的调度能力，支持随时添加、调整任务。

优点：

1、PySpider 框架易于安装和使用；

2、PySpider 框架支持分布式爬虫，提供了强大的调度能力；

3、PySpider 框架集成了多少 IP 代理池和 cookies 池，提高了抓取精度；

4、PySpider 框架性能稳定，速度较快，适合处理大规模数据。

缺点：

1、PySpider 框架文档较少，需要花费一定的时间去尝试；

2、PySpider 框架对复杂页面的抓取能力不如 Scrapy 框架。

Pyspider

Pyspider 是 Python 的一个强大的网络爬取框架，支持 JavaScript 渲染页面的抓取，能够灵活地处理数据。Pyspider 框架基于 Tornado 和 Python 3.x 开发，并提供了完善的 Web UI 界面，可以方便地对爬虫进行管理与监控，方便了爬虫的开发和调试。Pyspider 框架通过自带的调度器和任务队列实现了高效的分布式爬虫，能够更好地适应大规模数据的抓取。

优点：

1、Pyspider 框架支持 Javascript 渲染页面的抓取，能够更好地适应复杂的数据结构；

2、Pyspider 框架有完善的 Web UI 界面，方便管理和调试；

3、Pyspider 框架支持高效的分布式爬虫，能够更好地适应大规模数据的抓取。

缺点：

1、Pyspider 框架部分文档写得不够清晰，需要耗费一点时间去研究；

2、Pyspider 框架需要运行环境支持 Python 3.x。

Portia

是 scrapyhub 开源的一款可视化的爬虫规则编写工具。它提供可视化的 Web 页面，你只需要通过点击标注页面上你需要抽取的数据，不需要任何编程知识即可完成规则的开发。这些规则可以在#Scrapy#中使用，用于抓取页面。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

运行 Portia 的最简单方法是使用 Docker：

您可以使用Docker和官方Portia-image运行Portia，方法是运行：

docker run -v ~/portia_projects:/app/data/projects:rw -p 9001:9001 scrapinghub/portia

您还可以使用 Docker-compose 设置本地实例，方法是克隆此存储库并从文件夹的根目录运行：

docker-compose up

github：https://github.com/scrapinghub/portia

Newspaper

只支持Python3 Newspaper 可以用来提取新闻、文章和内容分析。使用多线程，支持 10 多种语言等。作者从 requests 库的简洁与强大得到灵感，使用 python 开发的可用于提取文章内容的程序。支持 10 多种语言并且所有的都是 unicode 编码。特征：多线程文章下载框架新闻网址识别从 html 中提取文本从 html 中提取顶部图像从 html 中提取所有图像从文本中提取关键字从文本中提取摘要从文本中提取作者谷歌热门字词提取支持10+种语言（英语，中文，德语，阿拉伯语等）