知识定位是否成立？语言模型中实体与关系视角的惊人差异-CFANZ编程社区

我是芝士AI吃鱼，原创 NLP、LLM、超长文知识分享
热爱分享前沿技术知识，寻找志同道合小伙伴
公众号 ：芝士AI吃鱼
知识星球：https://wx.zsxq.com/group/88888881284242

Does Knowledge Localization Hold True? Surprising Differences Between Entity and Relation Perspectives in Language Models

1. 引言

大型语言模型(LLMs)在训练过程中从庞大的知识语料库(如维基百科)中获取了大量的事实知识，并在各种自然语言任务中展现出卓越的性能。因此，LLMs 常被视为支撑知识导向任务的知识库。然而，要有效利用这些模型中的知识，需要深入理解 LLMs 存储和管理事实知识的机制。这种理解对于模型编辑等任务至关重要，这些任务涉及修改模型中嵌入的知识。

当前的研究主要集中在研究 LLMs 中嵌入的知识。这些工作将知识视为三元组 (s， r， o)，包括头实体(主语，s)、尾实体(宾语，o)和它们之间的关系 r。研究人员探索了语言模型如何在其参数中封装知识。

知识定位是否成立？语言模型中实体与关系视角的惊人差异_泛化

例如，Dai 等人采用知识归因方法，识别出表达事实知识的特定神经元，而 Meng 等人使用因果追踪发现主语与 MLP 模块之间存在强因果关系。

然而，这些研究主要从实体的角度调查 LLMs 中的知识。如果我们从关系的角度来处理相同的知识，可能会得到完全不同的观察结果。理论上，一条知识包括实体和它们之间的关系;缺少任何一个，知识就是不完整的。因此，在这种情况下，实体和关系应该是等价的，这也是当前许多模型编辑工作的前提，因为需要在模型参数中修改知识。

尽管如此，目前的研究还没有探讨这种等价性是否成立。为了填补这一空白，本文调查了实体和关系之间的差异。为了探索这种潜在的等价性，研究者采用了模型编辑技术，这是一种用于更新或纠正语言模型中新的或错误知识的技术。

研究目标是通过修改实体或关系知识来确定这些变化是否会产生一致的结果，并从两个角度观察效果。理想情况下，这些效果应该是相同的，因为编辑的知识涉及同一条信息。

2. 相关工作

随着事实信息的不断演变，存储在大型语言模型(LLMs)中的知识可能会变得过时或不正确。因此，迫切需要及时更新 LLMs 中不恰当的知识，同时保留其他有价值的知识。最近，这个问题引起了研究人员的广泛关注。

虽然参数高效微调和增量学习技术提供了修改 LLMs 的途径，但需要注意的是，这些方法可能容易过拟合，并且在应用于具有极大参数规模的 LLMs 时可能会产生巨大的计算成本。为了解决这些问题，Sinitsin 等人提出了模型编辑(Model Editing)的概念，旨在高效准确地改变模型中存储的事实知识。

目前，主要有三种类型的模型编辑方法：

基于记忆的方法：这些技术利用额外的可训练参数来存储记忆或学习 LLMs 中知识更新所需的调整(Δ)。
定位-编辑方法：这些方法采用因果中介分析来定位 LLMs 中的知识神经元，然后修改这些识别出的区域。本文主要探讨这种知识定位方法。
上下文内知识编辑方法：这些方法是一种免训练的范式，通过在输入上下文中连接演示来实现知识编辑。

3. 背景与方法

3.1 任务定义

假设知识 K = {x， y} 以三元组 (s， r， o) 的形式存储在语言模型中。模型编辑的目标是修改基础模型，该模型由参数 θ 参数化，将文本提示 P 作为输入 x 映射以控制模型的预测输出 y，表示为：

，为了修改预测结果，模型编辑旨在更新模型参数，使得 $ f(x; θ^) = y^ 。编辑可靠性需要将预测从更改为

3.2 模型编辑方法

为了探索模型参数与知识之间的联系，研究者应用模型编辑技术来修改基于 transformer 的语言模型的参数。为了修改模型中的特定知识 K，研究者调整与 K 相关的模型权重参数 W。目标是优化注意力和 MLP 组件的隐藏状态。目标权重

，其中表示通过第 i 个提示获得的知识索引向量，而表示目标知识表示。表示保留 n 条知识，而

研究者通过优化残差向量使用梯度下降来计算目标向量，以替换原始隐藏状态：

，给定提示来更新知识 K，优化以最大化模型对所需输出

3.3 定位关系知识

因果追踪

为了在模型参数中定位事实三元组 (s, r, o) 中的关系 r，研究者分析并识别对这些关系具有最强因果效应的知识神经元。研究者采用因果追踪方法，具体步骤如下：

清洁运行：将事实提示 x 输入模型并收集所有隐藏激活，其中 T 是 x 中的输入标记数，L 是层数。
损坏运行：通过向每个添加项来混淆关系嵌入 $ [h^{(0)}_1, h^{(0)}_2, ..., h^{(0)}T] ，其中 \epsilon \sim N(0, \nu) ， \nu 设置为嵌入经验标准差的三倍。这会产生一组损坏的激活 {h^{(l)}{i*} | i \in [1,T], l \in [1, L]} $。
损坏-恢复运行：模型对噪声嵌入执行计算，如损坏的基线。但是，在特定标记和层，被干预以输出干净状态。在此之后，所有后续计算都在没有进一步干预的情况下进行。

定义 , $ P^[y] 和 P^{,\text{clean } h^{(l)}_i}[y] 分别为干净、损坏和损坏恢复运行下最终预测的概率。特定隐藏状态

$ IE = P^{,\text{clean } h^{(l)}_i}[y] - P^[y] $

截断因果分析

为了更清楚地了解 MLP 和注意力层的影响，研究者按照 Meng 等人的方法，使用修改后的因果图执行截断因果追踪分析。在损坏-恢复运行中，研究者将 MLP 和注意力模块冻结为损坏运行值，使其不受插入干净状态

$ m^{(l)}i = W^{(l)}{proj} σ(W^{(l)}_{fc} γ(a^{(l)}_i + h^{(l-1)}_i)) $

，其中函数 sever(·) 表示截断操作，将 MLP 或注意力计算与模型分离。

4. 实验

为了研究知识如何存储在模型参数中，研究者提出了以下研究问题(RQs)：

RQ1：关系知识存储在哪里？它是否像实体知识一样存储在 MLPs 中？
RQ2：无论存储位置如何，关系和实体知识在知识三元组中是否同等重要？

4.1 实验设置

在实验中，研究者使用 GPT-2 XL(1.5B)和 GPT-J(6B)作为基础语言模型。实验在四个 NVIDIA RTX A6000 GPU 和十个 NVIDIA GeForce RTX 3090 GPU 上进行。评估指标包括可靠性和泛化性。

可靠性量化编辑过程的可靠性，可靠性越高表示编辑越成功。为了衡量可靠性，研究者评估编辑准确性如下：

$ M_{rel} = E_{(x,y^) \sim D}[1_{f(x;θ^(x,y^)) = y^}] $

，泛化性衡量编辑后模型的预测在各种输入或上下文中的泛化能力：

$ M_{gen} = E_{(\tilde{x}) \sim N(x)}[1_{f(\tilde{x};θ^) = f(x;θ^) = y^*}] $

其中

4.2 RQ1：关系的因果分析

研究者进行了因果追踪分析，以确定关系知识在模型参数中的位置，结果如图 2 所示。通过在提示的不同位置和不同模型组件(如单个状态、MLP 层和注意力层)之间改变中介，计算了 1207 个事实陈述的平均间接效应(AIE)。结果显示，与先前的发现一致，最后一个标记的最后几层存在高 AIE 分数。

知识定位是否成立？语言模型中实体与关系视角的惊人差异_泛化_02

这表明恢复这些层中 MLP 的隐藏状态可以恢复大部分必要信息。此外，研究者观察到故意损坏的关系标记的早期层也存在高 AIE 分数，强调了这些早期层在预测合理性方面的重要性。

同样，研究者注意到最后一个损坏标记的中间注意力层存在显著的 AIE。研究者发现，通过知识三元组中的关系 r 识别的知识存储位置与 MLP 层和注意力层都有很强的相关性，如图 3 所示。

知识定位是否成立？语言模型中实体与关系视角的惊人差异_三元组_03

这一结论与先前通过实体定位识别较低 MLP 层中知识存储的工作不同。研究者发现，通过关系定位的知识表达与较高的 MLP 层和中上层注意力层密切相关。当探索模型知识表达从实体视角到关系视角时，知识表达的因果位置在模型中发生了显著变化。

这表明模型参数中的知识存储位置是复杂的，不能简单地通过单一视角的因果追踪来确定，假设知识被隔离在特定的模型层中。因此，研究者认为，通过这种定位来修改相应的模型参数以控制知识的表达是不合理的。

4.3 RQ2：探究等价性

在假设实体和关系视角在知识三元组中在逻辑上等价的前提下，如图 3 所示，实体知识和关系知识被认为是可互换的。基于这一假设，研究者假设通过改变关系知识来修改实体知识在理论上是可能的。

为了验证这一假设，研究者应用模型编辑技术从关系和实体角度修改语言模型中的知识，并观察效果是否相同。表1展示了应用基于关系的模型编辑方法后，从关系和实体两个角度的评估结果。

表1：编辑关系知识后的性能

方法	实体知识		关系知识
	可靠性	泛化性	可靠性	泛化性
GPT-2 XL
FT	23.92	25.44	98.79	79.03
KN	22.53	24.61	97.52	76.16
MEND	22.33	24.63	100.0	83.24
ROME	27.92	28.12	99.99	84.47
MEMIT	24.15	24.63	91.36	76.24
GPT-J
MEND	15.51	17.99	100.0	81.52
ROME	30.95	31.87	100.0	95.97
MEMIT	18.92	19.37	100.0	88.50

与研究者的假设相反，结果令人惊讶地发现，实体的评估分数远远落后于关系的评估分数。编辑关系知识在关系方面取得了高指标，表明这些编辑方法是有效的。然而，实体知识的结果明显较低，这表明编辑关系并不能有效地改变实体知识。这是令人困惑的，因为同一三元组中的实体和关系定义了一条知识。理论上，改变三元组的任何部分都应该改变整个三元组，这意味着它们应该是等价的。

表2展示了应用基于实体的编辑方法后，从关系和实体角度的评估结果。

表2：通过编辑实体知识的性能

方法	实体知识		关系知识
	可靠性	泛化性	可靠性	泛化性
GPT-2 XL
ROME	99.93	96.6	96.12	74.46
MEMIT	93.88	79.6	97.28	76.01
GPT-J
ROME	99.99	99.49	91.37	74.52
MEMIT	99.87	95.08	92.36	74.20

表2中的结果显示，评估结果相对稳定，波动较小。关系知识的可靠性有所提高，但泛化性指标显著下降。这些发现表明，从实体角度进行模型编辑可能会改变知识片段之间的关系信息。然而，这些变化是不一致的。

上述发现表明，编辑实体知识和关系知识并不完全等价。

5. 结论

本文揭示了LLMs中的关系知识不仅编码在MLP层中，还显著地编码在注意力模块中。这一发现与之前假设知识主要存储在MLP权重中的观点形成对比。研究者的分析表明，实体和关系知识在LLMs中是分开存储的，突出了知识存储机制的复杂性。

这些见解对于改进模型可解释性和开发先进的基于知识的应用至关重要。此外，研究者的发现为未来在LLM相关任务(如模型编辑)的研究和开发提供了新的视角。具体来说：

知识存储的复杂性：研究结果表明，LLMs中的知识存储机制比之前认为的更为复杂。实体和关系知识并不简单地存储在相同的位置或以相同的方式表示。这意味着在设计知识编辑或提取算法时，需要考虑这种复杂性。
模型编辑的挑战：研究发现，编辑实体知识和关系知识并不完全等价。这对当前的模型编辑技术提出了挑战，因为许多现有方法假设可以通过修改一个方面(如实体)来影响另一个方面(如关系)。未来的模型编辑方法需要更细致地考虑知识的不同方面。
注意力机制的重要性：研究结果强调了注意力模块在存储关系知识方面的重要性。这表明在分析和修改LLMs中的知识时，不能仅仅关注MLP层，还需要考虑注意力机制的作用。
模型解释的新方向：这项研究为理解LLMs如何表示和处理知识提供了新的视角。这可能会引导新的模型解释方法，帮助研究者更好地理解这些复杂模型的内部工作原理。
知识表示的多样性：研究发现实体和关系知识可能以不同的方式存储和表示。这暗示了LLMs中知识表示的多样性，可能需要更复杂的方法来全面理解和操作模型中的知识。

这项研究不仅挑战了现有的关于LLMs中知识存储的假设，还为未来的研究指明了方向。它强调了需要更细致、多角度的方法来理解和操作这些复杂模型中的知识。这些见解可能会推动更有效的模型编辑技术、更准确的知识提取方法，以及更深入的模型可解释性研究。