博主在以往的文章中更新过图结构学习的相关概念,和北邮团队的几篇关于图结构学习的文章(主要KDD20,AAAI21,WWW21,AAAI21)。
- Graph Structure Learning(图结构学习综述)
- Graph Structure Learning(图结构学习应用)
近期WWW22放榜,于是博主也继续关注了下他们的新成果。
Compact Graph Structure Learning via Mutual Information Compression
这篇文章的动机在于:如何定义最优图结构?
需要解决两个挑战:
- 如何确保最终视图的最小以及充分?为了达到充分,最终视图应该充分由标签指导,从而尽可能多地包含和标签有关的信息;为了达到最小,需要限制信息从基础视图向最终视图的流动。因此,为了达到最小与充分,需要思考基础视图、最终视图以及标签三者间的关系;
- 如何确保基础视图的有效性?作为最终视图的信息源,基础视图需要保证较高质量。一方面,基础视图同样需要包含标签的信息,从而保证最终视图的表现效果;另一方面,不同视图间应相互独立,这样能消除彼此间的冗余,为最终视图提供多方面的关于标签的知识。
于是作者提出CoGSL模型,其主要通过互信息压缩来学习紧致的图结构。具体来说,模型架构如上图所示,分为2个部分,view estimator和adaptive fusion。视图估计器负责对对输入的视图进行结构调整,自适应融合以自适应无参聚合机制得到最终视图。
- view estimator。这里调整视图的做法跟前面几篇文章还是挺类似的,也是先学特征, Z 1 = σ ( G C N ( V 1 , X ) ) Z^1=\sigma(GCN(V_1,X)) Z1=σ(GCN(V1,X))重新计算节点i和j之间的权重, w i j 1 = W 1 ⋅ [ z i 1 ∣ ∣ z j 1 ] + b 1 w_{ij}^1=W_1 \cdot [z_i^1||z_j^1]+b_1 wij1=W1⋅[zi1∣∣zj1]+b1 p i j 1 = e x p ( w i j 1 ) ∑ e x p ( w i k 1 ) p^1_{ij}=\frac{exp(w^1_{ij})}{\sum exp(w^1_{ik})} pij1=∑exp(wik1)exp(wij1)再根据权重调整原图, V e s 1 = V 1 + μ 1 ⋅ P 1 V^1_{es}=V_1+\mu^1 \cdot P^1 Ves1=V1+μ1⋅P1
- adaptive fusion。为每个节点自适应地融合多个视图,其中会利用节点的预测概率作为视图融合的证据,并将大的权重赋予给更置信的视图, V i = β i 1 ⋅ V e s i 1 + β i 2 ⋅ V e s i 2 V_i=\beta^1_i \cdot V^1_{es_i}+\beta^2_i \cdot V^2_{es_i} Vi=βi1⋅Vesi1+βi2⋅Vesi2
paper:https://arxiv.org/abs/2201.05540
Prohibited Item Detection via Risk Graph Structure Learning
这篇文章的任务是:禁限售商品检测(Prohibited Item Detection),旨在识别电商场景中上架的非法物品。工业界之前的解决方案往往只关注商品自身的属性特征。最近研究者们尝试引入图神经网络来同时建模商品间存在丰富的风险结构特征。但这些方法始终面临着两个问题:
- 结构特征弱:存在多种风险关系、风险关系存在大量噪声且存在连边缺失;
- 监督信息弱:存在多种难以人工细致划分的风险子类,简单的黑白标签难以用于有效识别。
因此作者们提出了风险图结构学习模型(RGSL),模型结构如下图所示,
- heterogeneous structure learning。为克服弱结构问题,RGSL首先设计异质结构学习,从而减少了噪声连接并连接相似商品对。 H i = H e t e A G G ( h i , a i , j , h j W ∣ v j ∈ N ) H_i=HeteAGG(h_i,{a_{i,j,h_jW|v_j \in N}}) Hi=HeteAGG(hi,ai,j,hjW∣vj∈N)
- pairwise metric learning。为克服监督信息薄弱的问题,RGSL将检测过程转换为候选商品与其相似的黑产商品之间的度量学习任务,并提出了pairwise的训练机制。 L P W = − ∑ Y i , s ⋅ l o g ( Y i , s ′ ) + ( 1 − Y i , s ) l o g ( 1 − Y i , s ′ ) L_{PW}=-\sum Y_{i,s} \cdot log(Y'_{i,s})+(1-Y_{i,s})log(1-Y'_{i,s}) LPW=−∑Yi,s⋅log(Yi,s′)+(1−Yi,s)log(1−Yi,s′)
paper:https://dl.acm.org/doi/10.1145/3485447.3512190
补一篇WWW22年北大的best studen paper,一个可扩展的图神经结构搜索。
PaSca: A Graph Neural Architecture Search System under the Scalable Paradigm
目前图神经网络主要存在两个问题:
- 可扩展性低。可扩展性较低,很难直接用于现实生活中的大规模图数据。
- 建模门槛高。需要针对特定图数据和图任务编写代码和训练流程,需要专家且建模成本很高。
因此作者提出的PaSca是一个端到端的系统。如下图所示:
输入主要由两部分组成:1)图数据(Graph Data) 2)搜索目标(Objectives,如预测性能、内存占用、训练以及预测效率等)。
模型上将消息聚合操作和更新操作分离,定义了可扩展性图神经网络建模的新范式:前处理—训练—后处理,消息聚合操作只存在于前处理和后处理中,极大地降低了分布式场景下的通信开销。
在每一次迭代中,搜索引擎都会从搜索空间中推荐相应的可扩展图神经网络结构,之后评估引擎训练图网络模型并返回模型的验证结果。
paper:https://dl.acm.org/doi/10.1145/3485447.3511986
code:https://github.com/PKU-DAIR/SGL