0
点赞
收藏
分享

微信扫一扫

不错的python爬虫框架

不错的python爬虫框架_数据

ECommerceCrawlers

准确来说,这不是一个开发的框架,而是一宗几十个“爬虫代码”的汇总,请大家用于学习和研究。 多种电商商品数据 🐍 爬虫,整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。 对于精通爬虫的 pyer,这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。

对于小白通过 ✍️ 实战项目,了解爬虫的从无到有。爬虫知识构建可以移步项目 wiki。爬虫可能是一件非常复杂、技术门槛很高的事情,但掌握正确的方法,在短时间内做到能够爬

Scrapy

是一个基于 Python 的开源网络爬虫框架,是最为流行的 Python 爬虫框架之一。Scrapy 官网提供了详细的使用文档和示例代码,支持使用 XPath 和 CSS 选择器从网页中提取数据,并可将数据输出为 JSON、CSV 等多种格式。Scrapy 框架提供了强大的中间件和插件机制,可以方便地实现数据去重、多线程并发等功能。

优点:

1、Scrapy 框架配置简单,易于上手;

2、Scrapy 框架自带文件存储管道功能,方便存储数据;

3、Scrapy 框架有良好的中间件和插件机制,可以根据需求拓展功能;

4、Scrapy 框架自带的去重功能完善,可减少重复爬取。

缺点:

1、Scrapy 框架对于处理 JavaScript 渲染的页面存在不足;

2、Scrapy 框架速度较慢,不适合处理大规模数据;

3、Scrapy 框架在爬取过程中容易被屏蔽。

PySpider

PySpider 是一个全功能的分布式爬虫框架,基于 Python 语言开发。PySpider 易于安装和使用,提供了简单有效的编程接口,支持使用 XPath 和 CSS 选择器从网页中提取数据,并可将数据输出为 JSON、CSV 等多种格式。PySpider 框架支持分布式爬虫,可以统一管理多个爬虫实例,并提供了完善的调度能力,支持随时添加、调整任务。

优点:

1、PySpider 框架易于安装和使用;

2、PySpider 框架支持分布式爬虫,提供了强大的调度能力;

3、PySpider 框架集成了多少 IP 代理池和 cookies 池,提高了抓取精度;

4、PySpider 框架性能稳定,速度较快,适合处理大规模数据。

缺点:

1、PySpider 框架文档较少,需要花费一定的时间去尝试;

2、PySpider 框架对复杂页面的抓取能力不如 Scrapy 框架。

Pyspider

Pyspider 是 Python 的一个强大的网络爬取框架,支持 JavaScript 渲染页面的抓取,能够灵活地处理数据。Pyspider 框架基于 Tornado 和 Python 3.x 开发,并提供了完善的 Web UI 界面,可以方便地对爬虫进行管理与监控,方便了爬虫的开发和调试。Pyspider 框架通过自带的调度器和任务队列实现了高效的分布式爬虫,能够更好地适应大规模数据的抓取。

优点:

1、Pyspider 框架支持 Javascript 渲染页面的抓取,能够更好地适应复杂的数据结构;

2、Pyspider 框架有完善的 Web UI 界面,方便管理和调试;

3、Pyspider 框架支持高效的分布式爬虫,能够更好地适应大规模数据的抓取。

缺点:

1、Pyspider 框架部分文档写得不够清晰,需要耗费一点时间去研究;

2、Pyspider 框架需要运行环境支持 Python 3.x。

Portia

是 scrapyhub 开源的一款可视化的爬虫规则编写工具。它提供可视化的 Web 页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。 这些规则可以在#Scrapy#中使用,用于抓取页面。简单来讲,它是基于scrapy内核;可视化爬取内容,不需要任何开发专业知识;动态匹配相同模板的内容。

运行 Portia 的最简单方法是使用 Docker:

您可以使用Docker和官方Portia-image运行Portia,方法是运行:

docker run -v ~/portia_projects:/app/data/projects:rw -p 9001:9001 scrapinghub/portia

您还可以使用 Docker-compose 设置本地实例,方法是克隆此存储库并从文件夹的根目录运行:

docker-compose up

github:https://github.com/scrapinghub/portia

Newspaper

只支持Python3 Newspaper 可以用来提取新闻、文章和内容分析。使用多线程,支持 10 多种语言等。 作者从 requests 库的简洁与强大得到灵感,使用 python 开发的可用于提取文章内容的程序。 支持 10 多种语言并且所有的都是 unicode 编码。 特征: 多线程文章下载框架 新闻网址识别 从 html 中提取文本 从 html 中提取顶部图像 从 html 中提取所有图像 从文本中提取关键字 从文本中提取摘要 从文本中提取作者 谷歌热门字词提取 支持10+种语言(英语,中文,德语,阿拉伯语等)

举报

相关推荐

0 条评论