0
点赞
收藏
分享

微信扫一扫

Neo4j中的图算法:连通数据与图分析


直到最近,采用图形分析还需要大量的专业知识和决心,因为工具和集成是困难的,而且很少有人知道如何将图形算法应用于他们的困境和业务挑战。我们的目标是帮助改变这种状况。

我们正在编写本系列文章,以帮助组织更好地利用图表分析,以便他们做出新的发现并更快地开发智能解决方案。

虽然还有其他图形算法库和解决方案,但本系列的重点是Neo4j平台。然而,您会发现这些博客有助于理解更一般的图形概念,不管是什么图形数据库你用。

本周,我们将探讨为什么需要图表算法来分析今天的连接数据。

今天的数据需要图形算法

连通性是当今网络和系统最普遍的特点。

从蛋白质相互作用到社会网络,从通信系统到电网,从零售经验到供应链-即使是稍微复杂的网络也不是随机的,这意味着连接不是均匀分布的,也不是静态的。

这就是为什么简单的统计分析就不能充分描述-更不用说预测-连通系统中的行为。因此,当今大多数大数据分析没有充分模拟现实世界系统的连通性,也没有从大量相关数据中提取价值。

随着世界变得越来越互联,系统越来越复杂,我们必须使用构建的技术来利用关系及其动态特性。

毫不奇怪,对图形分析的兴趣已经爆炸,因为它是为了从连接的数据中获得洞察力而明确开发的。图表分析揭示了复杂的系统和网络在大规模的运作-不仅对大型实验室,而且对任何组织都是如此。图形算法是一种用于运行基于数学的计算过程,专门为连通信息创建。

理解连接数据

有四到五个“V”通常用来帮助定义大数据(体积,速度,变化,准确性和有时价值),但几乎总是有一个强大的“V”缺失:Valence。

在化学中,价是一个元素的结合力;在心理学中,它是一个物体的内在吸引力;在语言学中,它是一个词组合的元素数。

虽然价在某些学科中有特定的含义,但在几乎所有的情况下,在一个更大的系统中都有一个联系和行为的元素。在大数据环境下,价是单个数据连接的趋势,也是数据集的整体连通性。

一些研究人员用连接与可能连接的总数的比率来衡量数据收集的价态。数据集中的连接越多,其价就越高。

您的数据希望连接,形成新的数据聚合和子集,然后连接到更多的数据等等。此外,数据并不是为了自己而任意连接的;它建立的每一个连接背后都有其重要性。反过来,这意味着每一种联系背后的含义在事实之后都是可理解的。

虽然这听起来像是在生物学环境中主要适用的东西,但大多数复杂的系统都显示出这种趋势。事实上,我们可以在日常生活中看到这一点,我们可以通过一个简单的例子,根据我们的浏览历史、购物习惯、人口统计,甚至是当前位置之间的联系,提出目标明确的购买建议。大数据有价-而且很强。

一段时间以来,科学家们一直在观察网络的发展及其内部的关系。然而,仍有许多需要理解和积极开展的工作,以进一步量化和揭示这一增长背后的动力。

我们所知道的是,价态随着时间的推移而增加,但并不是一致的。科学家描述优先依附(例如,富人变得更富有了),因为这导致了权力分配和无标度网络的集线器和辐状结构。

Neo4j中的图算法:连通数据与图分析_图形算法

高度密集和块状的数据网络倾向于发展,实际上,大数据和它的复杂性都在增长。这是很重要的,因为密集但不均匀连接的数据很难用传统的分析来解压缩和探索。

此外,还需要更复杂的方法来建模对网络随时间的演变做出预测的场景,例如运输系统是如何增长的。这些动态进一步复杂化了对突然变化和爆发的监测,以及发现紧急性质。

例如,当一个社会群体的密度增加,你可能会看到加速的交流,然后导致一个临界点的协调和随后的联盟,或者,分组的形成和极化。

这种数据产生-数据循环可能听起来很吓人,但是这些连接的紧急行为和模式揭示了更多关于动态的信息,而不是通过研究单个元素本身来了解的。

例如,你可以研究一只鸟的运动,但是在你了解这些鸟是如何在一个更大的群体中相互作用之前,你不会理解一群在飞行中的鸟群的动态。

在商业上,你可能能够为一个人提供一个准确的餐馆推荐,但要估计七个有不同饮食偏好和人际关系状况的朋友的最佳团队活动是一个重大的挑战。具有讽刺意味的是,正是这种强有力的连接揭示了数据中隐藏的价值。

Neo4j中的图算法:连通数据与图分析_图形算法_02

经济学家杰弗里·戈德斯坦(JeffreyGoldstein)将出现定义为“复杂系统中自组织过程中新的、连贯的结构、模式和性质的产生”。这包括以下方面的共同特点:

  • 激进的新颖性(以前在系统中没有观察到的特征);
  • 连贯性或相关性(指在一段时间内自我维持的整体);
  • 全局或宏观“层次”(即存在某种“整体性”性质);
  • 是一个动态过程的产物(它在进化);以及
  • 一种明示的性质(它可以被感知到)。(资料来源:Wikipedia)

结语

对于今天的连接数据,只使用简单的统计工具仔细检查数据元素和聚合以获得洞察力是错误的,因为它们使数据看起来统一,并且隐藏了不断发展的动态。数据之间的关系是理解网络和系统内部和系统内真实世界行为的关键.

在接下来的几周里,我们将探索图形算法的强大力量,以及它们如何揭示不断变化的连接数据的动态,使您能够以新的方式理解您的数据,并发现传统分析方法无法发现的模式。

举报

相关推荐

0 条评论