0
点赞
收藏
分享

微信扫一扫

分布式爬虫技术架构


​​Spiderman​​

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项目结构:

分布式爬虫技术架构_算法​​

依赖关系如下:

分布式爬虫技术架构_云计算_02​​

webmagic

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

分布式爬虫技术架构_算法_03​​

工程结构:

分布式爬虫技术架构_云计算_04​​

工程间的关系:

分布式爬虫技术架构_众推_05​​

众推

用整体正在进行中,目前积中在分布式爬虫阶段。

分布式爬虫技术架构_众推_06​​

目前设计阶段的结构为:

分布式爬虫技术架构_大数据_07​​

基本思想为:

WEB:界面及功能部分。

SAMPLES:示例部分。

CORE:需要调用的核心包。

RULES:规则处理部分。

PARSERS:解析部分。

PLUGIN:插件部分。

CDOOP:分布式处理部分。

ADAPTER:代理适配部分。

STORE:存储层。

目前项目的地址在:

​​https://github.com/zongtui/zongtui-webcrawler​​


作者:​​张锋​​

本文版权归作者,欢迎转载,但未经作者同意必须在文章页面给出原文连接,否则保留追究法律责任的权利。

更多精彩文章可以观注

微信公众号 分布式爬虫技术架构_算法_08

举报

相关推荐

0 条评论