metapath2vec: Scalable Representation Learning for Heterogeneous Networks
摘要:我们研究异构网络中的表征学习问题。其独特的挑战来自于多种类型的节点和链路的存在,这限制了传统网络嵌入技术的可行性。我们开发了两个可扩展的表示学习模型,即metapath2vec和metapath2vec++。metapath2vec将基于元路径的随机行走形式化,以构建节点的异构邻域,然后利用异构跳格模型来执行节点嵌入。metapath 2 vec++模型进一步实现了异构网络中结构和语义相关性的同时建模。大量实验表明,metapath2vec和metapath2 vec ++不仅能够在各种异构网络挖掘任务(如节点分类、聚类和相似性搜索)中优于最先进的嵌入模型,而且能够辨别不同网络对象之间的结构和语义相关性。
首先阅读这篇文章,了解相关基础知识:
#16 知识分享:Metapath2vec的前世今生 - 知乎一、背景以及目的 最近看到的一些文章会提到Metapath2vec。于是乎抽了点时间整理了一下从word2vec方法发展到metapath2vec的路径。比较单纯的算是知识总结。本文尽量阐述思想,不过度使用公式表达。 本文中可能会涉…https://zhuanlan.zhihu.com/p/142316634学习目标:
1.metapath2vec算法{异质图Skip-Gram、meta-path schema 、概率转移矩阵、metapath随机游走}
2.算法优化{异质图embedding表示、异质图负采样、metapath2vec++算法}
3.图学习算法{使用dgl开源库、代码详解}
4.实验部分
原理:基于random walk和skip-gram的合成
定义:
异质网络
异质网络表示学习
异质网络的转移概率矩阵
负采样:
metapath2vec++
metapath2vec在计算softmax时,忽略了节点类型。换句话说,在采集负样本时,没有考虑样本是否与正样本属于同一个节点类型。因而本文提出,异质的负采样 (Heterogeneous negative sampling)。也就说条件概率在特定的节点类型上做标准化。
这就为skip-gram最后一层输出层中的 每个类型都指定了一个多项分布。负采样的目标函数: