目录
Abstract
在本文中,通过移除非线性和折叠权重矩阵来降低原来的GCN中额外的复杂性。本文从理论上分析了所得到的线性模型,并表明它对应于一个固定的低通滤波器和一个线性分类器。
实验评估表明,这些简化对许多下游应用的准确性都不会产生负面影响。此外,生成的模型可以扩展到更大的数据集,具有自然的可解释性,与FastGCN相比,可以产生高达两个数量级的加速比。
Introduction
GCNs将学习的一阶谱滤波器堆叠在一起,然后使用非线性激活函数来学习图形表示。 我们提出了SGC,通过反复消除GCN层之间的非线性,并将生成的函数折叠为单个线性变换,来降低GCN的过度复杂性。最终的线性模型在各种任务上表现出与GCN相当甚至更高的性能,同时计算效率更高,拟合的参数更少。
Simple Graph Convolution
定义
G
=
(
V
,
A
)
G=(V,A)
G=(V,A),
V
V
V为顶点集,
A
A
A为邻接矩阵,
D
D
D为顶点度矩阵。每个顶点
v
i
v_i
vi有一个对应的
d
d
d维的特征向量
x
i
x_i
xi,所有特征向量为
X
X
X。每个顶点都属于
C
C
C类中的一个,
Y
Y
Y表示类别标签集合。
对于所有顶点集,我们知道子集标签,并希望预测未知标签。
GCN
GCN为每个节点的特征 x i x_i xi学习一种新的特征表示,随后将其用作线性分类器的输入。在每个图卷积层中,节点表示在三个方向更新:特征传播、线性变换和逐点非线性激活 。
Feature propagation
在每个层的开始处,每个节点
v
i
v_i
vi的特征
h
i
h_i
hi用其局部邻域中的特征向量进行平均:
表示为矩阵运算为:
S
=
D
~
−
1
/
2
A
~
D
~
−
1
/
2
S=\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}
S=D~−1/2A~D~−1/2
其中
A
~
=
A
+
I
\tilde{A}=A+I
A~=A+I,
D
~
\tilde{D}
D~为对应的度矩阵。
因此所有顶点的更新为:
H
ˉ
(
k
)
←
S
H
(
k
−
1
)
\bar{H}^{(k)}\gets SH^{(k-1)}
Hˉ(k)←SH(k−1)
Feature transformation and nonlinear transition
局部平滑后,GCN层与标准MLP相同。每一层都与一个学习的权重矩阵相关联,在输出特征表示之前,逐点应用非线性激活函数,如ReLU 。
H
(
k
)
←
R
e
L
U
(
H
ˉ
(
k
)
Θ
(
k
)
)
H^{(k)}\gets ReLU(\bar{H}^{(k)}\Theta^{(k)})
H(k)←ReLU(Hˉ(k)Θ(k))
第k层的逐点非线性变换之后是第(k+1)层的特征传播。
Classifier
对于节点分类,与标准MLP类似,GCN的最后一层使用softmax分类器预测标签
Y
^
G
C
N
=
s
o
f
t
m
a
x
(
S
H
(
k
−
1
)
Θ
(
k
)
)
\hat{Y}_{GCN}=softmax(SH^{(k-1)}\Theta^{(k)})
Y^GCN=softmax(SH(k−1)Θ(k))
Simple Graph Convolution
在GCN中,每一层中,隐藏的表示为一跳邻居之间的平均。这意味着在k层之后,一个顶点从其k层邻居中获得特征信息。
我们假设GCN层之间的非线性不是关键性的,但大部分好处来自局部平均,因此,删除了各层之间的非线性过渡函数,只保留最后的softmax,由此产生的模型是线性的,但仍然具有与K层GCN相同的增加的感受野。
Y
^
=
s
o
f
t
m
a
x
(
S
S
S
.
.
.
.
S
X
Θ
(
1
)
.
.
.
Θ
(
k
)
)
\hat{Y}=softmax(SSS....SX\Theta^{(1)}...\Theta^{(k)})
Y^=softmax(SSS....SXΘ(1)...Θ(k))
令
S
k
=
S
S
S
.
.
.
.
S
S^k=SSS....S
Sk=SSS....S,
Θ
=
Θ
(
1
)
.
.
.
Θ
(
k
)
\Theta=\Theta^{(1)}...\Theta^{(k)}
Θ=Θ(1)...Θ(k),得到下式:
Y
^
S
G
C
=
s
o
f
t
m
a
x
(
S
K
X
Θ
)
\hat{Y}_{SGC}=softmax(S^KX\Theta)
Y^SGC=softmax(SKXΘ)
根据上式子可知,SGC由一个固定的(即无参数的)特征提取\平滑组件
X
ˉ
=
S
K
X
\bar X=S^KX
Xˉ=SKX,和一个线性逻辑回归分类器
Y
^
=
s
o
f
t
m
a
x
(
X
ˉ
Θ
)
\hat{Y}=softmax(\bar XΘ)
Y^=softmax(XˉΘ)组成。 由于
X
ˉ
\bar X
Xˉ的计算不需要权重参与,因此它基本上等同于特征预处理步骤,并且模型的整个训练减少为对预处理特征
X
ˉ
\bar X
Xˉ的直接多类逻辑回归。
Spectral Analysis
我们现在从图卷积的角度研究SGC。我们证明了SGC对应于图谱域上的固定滤波器。此外,我们还表明,向原始图中添加自循环,可以有效地缩小基础图谱。在这个缩放域上,SGC充当低通滤波器,在图形上生成平滑的特征。因此,附近的节点倾向于共享相似的表示,从而实现预测。
Preliminaries on Graph Convolutions
图傅立叶分析依赖于图拉普拉斯算子的谱分解。图拉普拉斯为
Δ
=
D
−
A
\Delta=D-A
Δ=D−A(正则化形式为
Δ
s
y
m
=
D
−
1
/
2
Δ
D
−
1
/
2
\Delta_{sym}=D^{-1/2}\Delta D^{-1/2}
Δsym=D−1/2ΔD−1/2),其特征分解为
Δ
=
U
Λ
U
T
\Delta=U\Lambda U^T
Δ=UΛUT。拉普拉斯算子的特征分解允许我们等价地在图域上定义傅里叶变换,其中特征向量表示图的傅里叶模式,特征值表示图的频率。图的卷积操作为:
g
∗
x
=
U
G
^
U
T
x
g*x=U\hat G U^Tx
g∗x=UG^UTx
其中
G
^
=
d
i
a
g
(
g
^
1
,
.
.
.
,
g
^
n
)
\hat G=diag(\hat g_1,...,\hat g_n)
G^=diag(g^1,...,g^n)为对角线矩阵,其中对角线对应于光谱滤波器系数。
图卷积可以用拉普拉斯算子的k阶多项式来近似 (具体见GCN),在这种情况下,滤波器系数对应于拉普拉斯特征值的多项式。最终得到:
g
∗
x
=
θ
(
I
+
D
−
1
/
2
A
D
−
1
/
2
)
x
g*x=\theta(I+D^{-1/2}AD^{-1/2})x
g∗x=θ(I+D−1/2AD−1/2)x
并且在GCN中,将
I
+
D
−
1
/
2
A
D
−
1
/
2
I+D^{-1/2}AD^{-1/2}
I+D−1/2AD−1/2替换为
D
~
−
1
/
2
A
~
D
~
−
1
/
2
\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}
D~−1/2A~D~−1/2
SGC and Low-Pass Filtering
初始一阶切比雪夫滤波器对应于GCN的传播矩阵:
S
1
−
o
r
d
e
r
=
I
+
D
−
1
/
2
A
D
−
1
/
2
=
2
I
−
Δ
s
y
m
S_{1-order}=I+D^{-1/2}AD^{-1/2}=2I-\Delta_{sym}
S1−order=I+D−1/2AD−1/2=2I−Δsym,因此,
S
1
−
o
r
d
e
r
K
S_{1-order}^K
S1−orderK特征传播意味着滤波器系数
g
^
i
=
g
^
(
λ
i
)
=
(
2
−
λ
i
)
K
\hat g_i=\hat g(\lambda_i)=(2-\lambda_i)^K
g^i=g^(λi)=(2−λi)K。
这里的2为单位矩阵的特征值,
g
^
i
\hat g_i
g^i为对
S
1
−
o
r
d
e
r
K
S_{1-order}^K
S1−orderK进行特征分解对应的特征值。
根据下图可以观察到,
S
1
−
o
r
d
e
r
S_{1-order}
S1−order的高次幂会导致滤波器系数爆炸(图中蓝线),并在
λ
i
<
1
\lambda_i<1
λi<1时过度放大信号。
在GCN中,将
I
+
D
−
1
/
2
A
D
−
1
/
2
I+D^{-1/2}AD^{-1/2}
I+D−1/2AD−1/2替换为归一化形式
D
~
−
1
/
2
A
~
D
~
−
1
/
2
\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}
D~−1/2A~D~−1/2,本文又进一步定义增广归一化的拉普拉斯
:
Δ
~
s
y
m
=
I
−
D
~
−
1
/
2
A
~
D
~
−
1
/
2
\tilde \Delta_{sym}=I-\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}
Δ~sym=I−D~−1/2A~D~−1/2,可以将与对应的
S
~
\tilde S
S~相关的光谱滤波器描述为潜在拉普拉斯算子特征值的多项式
g
^
(
λ
~
i
)
=
(
1
−
λ
~
i
)
K
\hat g(\tilde \lambda _i)=(1-\tilde \lambda _i)^K
g^(λ~i)=(1−λ~i)K
一个小插曲:
仿照信号中的卷积,得到在图上面的卷积公式,如下经过化简以后得到了图滤波器
H
=
U
Λ
h
U
T
H=U\Lambda_h U^T
H=UΛhUT,其形式和拉普拉斯
L
=
U
Λ
U
T
L=U\Lambda U^T
L=UΛUT很相似,因此,图滤波器实际上是作用在拉普拉斯矩阵特征值上的函数,它利用一个频率响应函数
h
(
λ
)
h(\lambda)
h(λ)来调整不同频率(即不同特征值)上分量的强度(参考:图卷积网络原来是这么回事)
而对于增广归一化的拉普拉斯
Δ
~
s
y
m
=
I
−
D
~
−
1
/
2
A
~
D
~
−
1
/
2
=
I
−
U
Λ
^
U
T
=
U
(
1
−
Λ
^
)
U
T
\tilde \Delta_{sym}=I-\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}=I-U\hat \Lambda U^T=U(1-\hat \Lambda)U^T
Δ~sym=I−D~−1/2A~D~−1/2=I−UΛ^UT=U(1−Λ^)UT,因此其频率响应函数为
p
(
λ
)
=
1
−
λ
^
i
p(\lambda)=1-\hat \lambda_i
p(λ)=1−λ^i。该函数是一个线性收缩的函数,因此能起到对图信号进行低通滤波的作用。(参考:GCN性质分析-低通滤波器)
回到原文
可以证明,向图中添加自循环会缩小相应规范化拉普拉斯算子的谱(特征值)。
定理1.归一化图拉普拉斯算子的最大特征值在加上自环后变小。
还是上图,可以看到原始的、归一化的、增广归一化的
- 通过添加自循环,最大特征值从2缩小到大约1.5,并且消除了负系数的影响 。
- 在第一个图中,K越大,信号会被过度放大。第二个图中,特征值的增大使得在奇数K时产生了负系数。
- 频率响应函数在低频段上有着更强的缩放效果,该缩放频谱允许通过取 S ~ \tilde S S~的K>1次方定义的滤波器充当低通型滤波器。
图的有效信息往往蕴含在低频段,没有必要为每一个频段训练一个参数(不用学习卷积核参数)