图学习任务
我们简单回顾下,上一节我们介绍了,图的机器学习任务主要是以下三种:
- Node Level:节点级别
- Link Level:边级别
- Graph Level:图级别
并且三部分难度依次是由浅入深的 -
传统ML流程
- 定义和设计节点/边/图的特征
- 对所有训练数据构造特征
-
- 训练ML模型
(1)随机森林
(2)支持向量机
(3)神经网络等 - 应用模型
给定一个新的节点、边、图,然后获取特征进行预测
我们总结下 基于Graph的机器学习相关概念和流程,首先明确下目标
目标:对一些对象集合进行预测,比如是分类或者回归任务
特征设计:
- 特征:
d-dimensional
向量 - 对象:Nodes,edges,或者是graps
- 目标函数:结合具体任务设计目标函数,如下图所示给定一个图G(V,E),其中V代表节点集合,E代表边集合,然后学习节点到向量空间R的映射函数,也就是我们要学习权重参数W
为了方便,我们下面的例子是基于无向图(undirected grpah)进行解释的。
节点级别的相关任务
基于图中带有标签的节点训练模型,然后预测未标注节点的标签,
在这里我们主要阐述下Node的四种特征:
- Node degree:节点的度
- Node centrality:节点的中度
- Clustering coefficient:相似性
- Graphlets:图元
节点的度
- kv代表是节点v与邻居节点相连边的个数
- 所有邻居节点都是相等的
如下图所示,A的度为1,B的度为2,C的度为3,D的度为4
节点的中心度 Node Centrality
- 节点的度只计算了相连节点的个数,但是没有评估节点的重要性
- 节点的中心度c_v</>考虑了节点在图中的重要程度
- 节点的中心度有很多种计算方式:
(1) Engienvector centrality:特征向量中心性
(2) Engienvector centrality:间接中心性
(3) Engienvector centrality:紧密中心性
(4) 其他方式