伴随方法：线性方程的伴随方程（Adjoint Equation）-CFANZ编程社区

伴随方法：线性方程的伴随方程（Adjoint Equation）

伴随方法是 Neural-ODE 中十分重要的一个方法，它让一个计算量复杂到基本无法求解的问题变得有可能。在神经网络中嵌套线性方程或者非线性方程也会遇到同样的问题，这篇文章从最简单的例子线性方程中的网络参数求解中，表达一下伴随方法的思想以及一些公式的推导。

假设现在有一个线性系统，其中矩阵和都是参数的函数，那么线性系统可以表示为。在机器学习领域，和可以看做是神经网络，是神经网络的参数，那么自然而然地，我们的目标就是想要求得损失函数关于网络参数的导数，然后利用梯度下降以及优化算法来训练网络。

对于一个线性方程，有许多的方法来求解得到，假设会作为模型最后的预测结果，那么最终它会输入到一个损失函数中，可能会有真实标签与其对应。因此，我们最终要求的就是损失函数关于参数的导数。

因为和都是由决定的，因此实际上也是的隐式函数，所以可以写成。我们假设参数的维度为，即，其他的矩阵以及向量的维度分别为，，。有得时候损失函数也会是的函数，因此具体地写出来损失函数就是 .

注意：为了方便各种符号的简化，下面继续表示这些变量的时候，会省略后面的，但是读者应该记住这些变量依旧是的函数，在求导的时候要一直考虑这一项。

我们想要得到的是，要注意的是这里表达的是全微分，因此有：

在每一个变量的下面都标上了各自的维度。因为和都是一个向量，因此是一个雅可比矩阵，在这式子当中，是最难求的。

我们对于线性系统的两端，都对进行求导，可以得到：

我们的目标是求出这一项，对其进行简单的变换：

方程两边同时左乘的逆，得到：

同样的，我们在变量下面标上对应的维度。要注意的是，这里和的维度是不匹配的，但是我们不拘泥于这里，我们关注的点在于如果要通过最直接的方式去求解所需要的时间是有多大。这里只需要记住，无论如何，括号里面最终得到的矩阵维度为的大小。同时也不用去过度的关注矩阵要如何求逆（因为这里是一个神经网络的输出，所以求逆会使得问题变得更为复杂），因为在后面会发现其实没有必要对求逆。

将式子 (2) 与线性方程进行对比可以发现，其实这就是由个线性方程组成的更大的线性方程。求解一个线性方程可以用 LU 分解或者 QR 分解，它们的时间复杂度为，时间花费太过于大，对于神经网络来说，参数一多基本无法求解。因此，我们要使用另外一种更为高效的方法 —— 伴随方法，来求解这个问题。