论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement-CFANZ编程社区

Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement

并非所有功能都很重要：通过自适应先验细化增强少样本 CLIP

对比语言图像预训练（CLIP）的流行推动了其在各种下游视觉任务中的应用。为了提高下游任务的能力，小样本学习已成为一种广泛采用的技术。然而，现有方法要么表现出有限的性能，要么遭受过多的可学习参数的困扰。在本文中，我们提出了 APE，一种针对 CLIP 预训练知识的自适应先验精炼方法，该方法以高计算效率实现了卓越的精度。通过先前的细化模块，我们分析下游数据中的类间差异，并将特定于领域的知识与 CLIP 提取的缓存模型解耦。最重要的是，我们引入了两种模型变体：无需训练的 APE 和需要训练的 APE-T。我们探索测试图像、先验缓存模型和文本表示之间的三边关联性，并且只允许训练轻量级类别残差模块。对于 11 个基准测试的平均准确度，APE 和 APE-T 都达到了最先进的水平，并且在 16 次射击（可学习参数减少 30 倍）下分别比第二名高出 +1.59% 和 +1.99%

1.简介

对比视觉语言预训练的出现为多模态学习提供了新的范式[46,48,57]。它在各种下游视觉任务中都很受欢迎，包括 2D 或 3D 分类 [38,88,92]、分割 [65,83,101] 和检测 [69,87,98]。 CLIP [64] 是最受认可的对比视觉语言模型之一，并因其简单性和优越性而受到广泛关注。通过来自互联网的大量图像-文本对进行预训练，CLIP 在将视觉语言表示与下游任务中良好的零样本性能相结合方面表现出非凡的能力。为了进一步增强低数据情况下的 CLIP，许多工作提出了少样本学习技术，并在新语义域的冻结 CLIP 上添加了额外的可学习模块。

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集

图 2. 现有基于 CLIP 的少样本方法的比较。我们仅展示基于先验的方法和我们的 APE-T 所需的训练模型变体。EV，ET 分别表示 CLIP 的预训练视觉和文本编码器

如图2（a）和（b）所示，现有的基于CLIP的few-shot方法可以根据是否通过CLIP的先验知识显式构建可学习模块分为两类。 1）非先验方法在没有 CLIP 先验的情况下随机初始化可学习模块，并在小样本训练期间对其进行优化。例如，CoOp系列[99, 100]采用可学习的提示在 CLIP 的文本编码器之前，CLIP-Adapter [24] 在 CLIP 之后学习两个残差式适配器。这种网络仅引入轻量级的可学习参数，但由于附加模块没有明确考虑预先训练的先验知识，因此受到有限的少样本精度的影响。 2）基于先验的方法通过CLIP从少样本数据中提取特征构建键值缓存模型，并且能够以免训练的方式进行识别，包括Tip-Adapter [91]和Tip-X [76 ]。然后，他们可以进一步将缓存模型视为性能良好的初始化，并微调缓存键以获得更好的分类精度。这些基于先验的方法明确地将先验知识注入到训练过程中，但由于具有大量可学习参数的大缓存大小，因此很麻烦。那么我们会问，我们是否可以整合它们的优点，实现两全其美，即不仅配备高效的可学习模块，还可以受益于 CLIP 的先验知识？为此，我们提出了自适应先验细化（Adaptive Prior rEfinement），称为 APE，它通过细化视觉表示中预先训练的知识，有效地使 CLIP 适应小样本分类。 APE不仅可以通过CLIP的先验获得优越的性能，而且比非先验方法消耗更少的计算资源，如图1所示。

我们观察到，并非所有 CLIP 的先验，即缓存模型或测试图像提取的视觉特征，对于沿通道维度的下游任务都很重要。在图 3 中，我们将 CLIP 提取的视觉表示的特征通道分为两组，并分别用 ImageNet [16] 中的文本表示可视化它们的相似性图。第一组 (a) 中的特征可以观察到比第二组 (b) 更好的视觉语言对齐。受此启发，我们提出了一个先验细化模块，通过两个标准（类间相似性和方差）自适应地选择最重要的特征通道。通过最大化少样本训练数据中的类间差异，细化的特征通道可以丢弃冗余信息并以更少的内存成本减少缓存大小。

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_02

图 3. 视觉语言对齐的相似性图。我们利用 CLIP 和 ResNet-50 [32] 视觉编码器，从 1024 个特征通道中细化 512 个特征通道，其中细化后的特征更加关注对象目标。

除此之外，我们提出了我们方法的两种变体表示为APE和APE-T。第一个是免训练模型，直接利用精炼后的缓存模型进行推理。 APE 新颖地探索了测试图像、精炼缓存模型和文本表示之间的三边关联，以实现稳健的免训练识别。第二个是 APE-T（图 2(c)），它只是在顶部训练轻量级类别残差，而不是对整个缓存模型进行昂贵的微调。这些类别残差进一步更新细化的缓存模型，并在模态之间共享，以确保视觉语言对应。与现有的免训练和需要训练方法相比，我们的 APE 和 APE-T 在 11 个少样本基准测试中分别实现了最先进的性能，在平均 16-16 次测试中超过了第二好的 +1.59% 和 +1.99%射击精准度。

我们的工作贡献总结如下：

• 我们提出了自适应先验精修（APE），这是一种 CLIP 的自适应方法，可以在保持计算效率的同时显式地利用其先验知识。

• 经过事先细化，我们探索了 CLIP 提取的视觉语言表示之间的三边亲和力，以实现有效的小样本学习。

• 我们的免训练 APE 和 APE-T 在 11 个小样本基准测试中表现出最先进的性能，证明了我们方法的优越性。

2. 相关工作

零样本 CLIP。对于 C 类数据集中的测试图像，CLIP [64] 利用其编码器来提取 D 维视觉和文本表示，分别表示为 f 2 R D 和 W 2 R C×D。然后，通过相似度计算零样本分类逻辑，为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_03

基于这种零样本范式，最近的研究已将 CLIP 的预训练能力扩展到许多其他视觉任务，例如少样本图像分类 [63, 90, 93, 99, 100]，视频识别 [52, 80]，3D 理解 [92, 97, 101] 和自监督学习 [25, 95]。

其中，现有的少样本图像分类的自适应方法分为两类。

非先验方法在 CLIP 之上附加额外的可学习模块，并在没有显式 CLIP 先验的情况下随机初始化它们。这些方法包括 CoOp [100]、CoCoOp [99]、TPT [71] 和 CLIP-Adapter [24]。这些方法只引入了一些可学习的参数，例如提示或适配器，但由于缺乏 CLIP 的先验知识，下游任务的准确性有限。

基于先验的方法可以通过显式地利用带有缓存模型的 CLIP 先验来实现更高的分类精度，包括 Tip-Adapter [91]、Causal-FS [51] 和 Tip-X [76]。对于每类有 K 个样本的 C 类数据集，在其之上构建了键值缓存模型。缓存键和值分别使用 CLIP 提取的训练集特征 F 2 R CK×D 及其单热标签 L 2 R CK×C 进行初始化。然后计算测试图像与训练图像之间的相似度

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_04

其中 β 是平滑标量。然后，将关系RfF作为权重来整合缓存值，即one-hot标签L，并与零样本预测混合为few-shot logits，

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_自适应_05

其中α表示平衡因子。这样，基于先验的方法就可以利用RfW和RfF的双边关系来实现免训练识别。除此之外，他们还可以进一步使缓存模型变得可学习，并在训练过程中优化训练集特征F。尽管可学习模块的初始化已经明确地结合了 CLIP 的先验知识，但这些方法受到从缓存模型派生的过多参数的影响。

与上述所有方法不同，我们的 APE 和 APE-T 不仅可以通过 CLIP 的先验知识进行竞争，还可以通过自适应先验细化模块引入轻量级参数和计算资源。

3.方法

在3.1节中，我们首先通过两个类间度量来说明APE中的先验细化模块。然后在第 3.2 节和第 3.3 节中，我们根据细化的表示分别介绍了免训练和需要训练的变体 APE 和 APE-T 的详细信息。

3.1. CLIP 的先前细化

对于下游数据集，CLIP 提取的视觉表示可以包含沿通道维度的特定于域的信息和冗余信息。前者在分类下游图像时更具辨别力，后者代表更一般的视觉语义。因此，我们提出两个标准，类间相似性和方差，以针对不同的下游场景自适应地选择最重要的特征通道。

3.1.1 类间相似度--尽量小

该标准旨在提取类间相似度最小的特征通道，即最具区分性的分类通道。对于下游图像，我们将其 CLIP 提取的特征表示为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_06

，其中 D 表示整个通道数，我们寻求从 D 中细化 Q 个特征通道。然后，我们设置一个二进制标志

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_07

；其中

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_自适应_08

，表示选择第 k 个元素 xk，且

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_09

。现在，我们的目标转向找到最优 B 以产生最高的类间值下游数据的分歧。

对于C类下游数据集，我们计算所有训练样本的类别之间的平均相似度S。我们采用余弦相似度 δ(·,·) 作为度量：

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_10

其中

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_11

代表两个不同的类别。

Pi, Pj 表示两个类别的先验概率，Mi, Mj 表示它们的训练样本总数。

然而，为整个数据集（即使是少数镜头）计算 S 的计算成本很高。考虑到 CLIP 的对比预训练，其中视觉语言表示已经很好地对齐，下游类别的文本特征可以被视为一组视觉原型[17,37,72]。这样的原型可以近似不同类别的视觉特征的嵌入空间中的聚类中心[27, 82]。为了获得文本特征，我们只需使用模板“a photo of a [CLASS]”并将所有类别名称放入[CLASS]中作为CLIP的输入。然后，我们将下游类别的文本特征表示为.

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_12

因此，我们采用这些文本特征来代替每个类别的图像特征，从而确定

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_13

。在开放世界设置下，我们还可以假设

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_自适应_14

。然后，我们定义优化问题以最小化类间相似度，

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_自适应_15

我们进一步假设文本特征已经过 L2 归一化，因此我们可以将余弦相似度简化为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_16

其中

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_17

表示选择的特征通道的索引，其中 Bk = 1，Sk 表示第 k 个通道的平均类间相似度。从方程 14 中，我们观察到解决方程 5 中的优化问题等于选择具有最小平均相似度的 Q 个元素。也就是说，我们根据平均相似度对所有 D 元素进行排序，并选择前 Q 个最小的元素。通过这种方式，我们可以推导二值标记B并获得下游分类最具辨别力的特征通道。

3.1.2 类间方差

除了类间相似性之外，我们引入了另一个标准来消除类别之间几乎保持不变的特征通道，这些特征通道没有表现出类间差异，对分类影响很小。为了提高效率，我们还采用类别文本特征作为下游数据集的视觉原型。对于第 k 个特征通道，我们将其类间方差表示为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_18

其中

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_自适应_19

表示第 k 个通道跨类别的平均方差。与等式14类似，方差标准也可以被视为排序问题，而是选择具有最高方差的top-Q通道。通过这种方式，我们可以有效地过滤掉下游数据集的 CLIP 先验知识中冗余且信息量较少的通道。

最后，我们将相似性和方差标准与平衡因子 λ 混合作为最终测量。对于第 k 个特征通道，我们将其表示为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_20

选择top-Q最小的Jk作为最终的细化特征通道，这表明类间差异和区分度最大。

3.1.3 有效性

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_21

图 4. 先验细化模块的有效性，该模块最大限度地减少了类间视觉相似性并改善了文本图像对齐。

图 4 显示了我们的自适应细化模块带来的好处。我们通过 ImageNet [16] 验证集上的文本特征进行细化，并将统计数据可视化，其中类别数 C 等于 1000。我们使用 ResNet-50 [32] 作为 CLIP 的视觉编码器进行实验，其中我们细化了 Q = 512 个特征通道整个 D = 1024 个。我们参考[76]比较了三种类型的指标。如图所示，对于细化后的 512 个特征通道，图像之间的类间相似度（‘Inter-class Image-Image’）已大大降低，表明类别区分度很强。同时，我们的细化更好地对齐了配对的图像文本特征（“Matched ImageText”），并排除了未配对的特征（“Unmatched Image-Text”），从而增强了 CLIP 用于下游识别的多模态对应性。

除了改进的 CLIP 提取特征之外，我们还提出了两种 CLIP 的小样本自适应方法：免训练 APE 和需要训练的 APE-T。

3.2.免训练 APE

本质上，CLIP 是一种基于零样本相似性的分类器，它依赖于测试图像与嵌入空间中类别文本表示之间的距离。

考虑到这一点，我们的APE基于改进的CLIP先验，探索测试图像、下游类别文本和缓存模型中的训练图像之间的三边嵌入距离，如图5所示。

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_22

图 5.APE 的框架。基于先验细化（PR），APE以免训练的方式探索视觉-语言表征的三边关系。

对于每个类别有 K 个训练样本的 C-way-K-shot 下游数据集，我们采用 CLIP 提取测试图像、类别文本和训练图像的 L2 归一化特征，然后，我们进行自适应先验细化模块，以获得三个特征的最多 Q 个信息通道。这不仅丢弃了预训练 CLIP 中的冗余信号，而且在推理过程中以更少的计算成本减少了缓存模型。

对于三边关系，我们首先将f与W之间的关系表示为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_缓存_23

这表示测试图像和类别文本之间的余弦相似度，即第 2 节中所述的 CLIP 零样本预测的原始分类逻辑。

然后，我们将f’和F’之间的相似度表示为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_24

参考基于先验的方法 [76, 91]，它指示具有调制标量 β 的缓存模型的图像-图像相似性。此外，我们考虑F’和W’之间的关系，这表示CLIP对少样本训练数据的零样本预测。为了评估 CLIP 的下游识别能力，我们计算了 CLIP 的预测与其单热标签 L 之间的 KL 散度 DKL(·|·)。我们将其表示为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_25

其中 γ 用作平滑因子。可以看作是对缓存模型中每个训练特征的评分，表示其通过CLIP提取的表示精度以及对最终预测的贡献有多大。

最后，整合所有三边关系，我们得到APE的整体分类logits：

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_自适应_26

其中α作为平衡因子，diag(·)表示对角化。第一项代表 CLIP 的零样本预测，并包含其预先训练的先验知识。

第二项表示缓存模型的小样本预测，它基于细化的特征通道和的重新权重。因此，通过自适应先验细化和三边关系分析，我们的 APE 可以高效且有效地增强少样本 CLIP。

3.3.需要训练的 APE-T

为了进一步提高 APE 的小样本性能，我们引入了一个需要训练的框架 APE-T，如图 6 所示。现有的基于先验的方法 [51, 91] 直接微调所有训练缓存模型中的特征，这导致大规模的可学习参数和计算成本。相比之下，APE-T 冻结缓存模型，仅训练一组额外的轻量级类别残差，以及缓存分数。

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_自适应_27

图 6.APE-T 的框架。我们需要训练的变体在 APE 之上附加了可学习的类别残差以及，以进行少样本训练。

具体来说，类别残差 Res 由一组 C个可学习嵌入实现。每个嵌入对应一个下游类别，旨在在少样本训练期间优化不同类别的细化 Q 特征通道。为了保留嵌入空间中的视觉语言对应关系，我们将 Res 应用于文本特征 W 和训练集特征 F’。

对于等式 9，我们首先通过用零填充冗余通道索引，将 Q 通道 Res 填充到 D 通道中作为 W。然后，我们按元素添加带有 W 的填充 Res，这通过优化的文本特征更新 CLIP 的零样本预测，公式为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_28

对于方程 10，我们首先通过重复每个类别内的残差，将 C个嵌入 Res 作为 F’广播到 CK 中。然后，我们将扩展的 Res 与 F’ 逐元素相加，通过优化训练集特征来改进缓存模型的小样本预测，公式为

论文阅读：Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement_数据集_29

对于公式 11，我们直接使在训练期间可学习，无需手动计算。通过这种方式，APE-T 可以自适应地学习不同训练集特征的最佳缓存分数，并确定哪一个对预测贡献更大。

最后，我们还利用公式 12 来获得 APE-T 的最终分类 logits。通过仅训练此类小规模参数，APE-T 避免了昂贵的缓存模型微调，并通过更新两种模式的细化特征来实现卓越的性能。

4.实验

在4.1节中，我们首先介绍APE和APE-T的详细设置。然后在 4.2 节中，我们在 11 个广泛采用的基准上评估我们的方法。

4.1.实验设置

数据集。我们采用11个图像分类基准进行综合评估：ImageNet [16]、Caltech101 [22]、DTD [14]、EuroSAT [33]、FGVCAircraft [56]、Flowers102 [58]、Food101 [10]、OxfordPets [60]、斯坦福汽车[41]、SUN397[85]和UCF101[73]。此外，采用ImageNet-Sketch [79]和ImageNet-V2 [66]来测试泛化能力。考虑到每个数据集的少量训练数据，我们在官方验证集上调整我们的模型，并在完整测试集上评估结果。

实验设置。对于APE和APE-T，我们默认采用ResNet-50 [32]作为CLIP的视觉编码器，输出D = 1024通道的视觉语言特征。我们遵循现有的工作[24,91,100]进行1/2/4/8/16镜头学习，并利用Tip-X [76]和CuPL [62]中的文本提示。对于先验细化模块，我们将公式 8 中的 λ 设置为 APE 的 0.7，APE-T 的 λ 设置为 0.2。

为了训练 APE-T，我们采用批量大小 256 和 AdamW [55]

带有余弦退火调度器的优化器[54]。我们对 ImageNet 和 Food101 使用 0.0001 的学习率，对其余数据集使用 0.001。

4.2.性能分析

APE 结果。在免训练设置下，我们将我们的 APE 与图 7 中的 Tip-Adapter [91] 和 Tip-X [76] 进行比较。它们都是基于先验的方法，也是带有缓存模型的免训练方法。从 11 个数据集的平均结果来看，对于 1 到 16 个镜头，APE 比其他方法表现出一致的优势，表明我们强大的少镜头适应能力。尽管我们在 OxfordPets 上落后于 Tip-X，但在 DTD 和 EuroSAT 数据集上观察到了显着的增益，即在 16 次拍摄设置下比 Tip-Adapter 分别提高了 7.03% 和 7.53%。这证明了提炼特定领域知识和针对不同下游场景利用三边关系的有效性。

APE-T 结果。在图 8 中，我们将 APE-T 与其他三种需要训练的方法进行比较：CoOp [100]、CLIPAdapter [24] 和 Tip-Adapter-F [91]。我们的 APE-T 在每个基准测试中都优于现有的，并在所有少数镜头设置下实现了最先进的结果。平均而言，APE-T 16 次射击的准确率为 77.28%，比 TipAdapter-F 高出 1.59%。特别是，我们观察到 APE-T 比 Tip-Adapter-F 在 DTD 和 FGVCAircraft 上分别大幅提高了 +3.05% 和 +4.50% 的分类精度。这些优异的结果充分验证了通过我们的可学习类别残差更新细化特征通道的重要性。

计算效率。我们还在表 1 中比较了我们的方法和现有方法之间的计算开销。我们使用 NVIDIA RTX A6000 GPU 进行测试，并报告了 16 镜头 ImageNet 上的性能。如前所述，CoOp 涉及的可学习参数最少，但需要大量训练时间和 GFLOP 来在整个文本编码器中反向传播梯度。 Tip-Adapter-F 减少了训练时间，但通过微调完整缓存模型以及不小的 GFLOP 梯度，带来了大规模的可学习参数。相比之下，我们的 APE-T 不仅获得了最高的精度，而且还实现了有利的计算效率：比 CoOp 少 5000 倍的 GFLOP，比 Tip-Adapter-F 少 30 倍的参数。

泛化能力。在表 2 中，我们通过域内 ImageNet 训练模型，并测试它们在分布外数据集上的泛化能力。与最好的在域性能方面，我们的 APE 和 APE-T 都在 ImageNetV2 上实现了显着的分布外性能。对于具有更多分布变化的 ImageNet-Sketch，我们的免训练 APE 优于所有现有方法，包括需要训练的方法。然而，当我们在域内 ImageNet 上训练类别残差时，通过在 ImageNet-Sketch 上进行测试，APE-T 的表现比 APE 差。

5. 消融研究

在本节中，我们进行了广泛的消融实验，以研究我们的方法的贡献，分别针对先验细化模块、免训练 APE 和需要训练的 APE-T。

事先细化模块。在图 9 (a) 中，我们评估了两个细化标准（类间相似性和方差）的影响，并采用以 ResNet-50 [32] 作为基线的免训练 APE。如图所示，缺乏相似性或差异都会损害性能。

此外，我们观察到相似性标准比方差起着更重要的作用，它可以更好地从 CLIP 提取的表示中选择最具辨别力的通道。然后在图9（b）中，我们研究了细化通道数Q的影响。对于所有镜头，通道数在[500；500；500]范围内。 900] 产生更好的性能。这表明我们的细化特征通道比其他冗余通道更重要。

免培训 APE。在图10（a）中，我们分解了所提出的三边关系并分别揭示了它们的作用。对于 0-shot 结果，“Only RfW”表示 0-shot CLIP 的性能，准确率为 61.64%。通过配备“RfW + Rf 0F 0”，预先细化的缓存模型可以帮助在少样本设置下获得更高的性能。最后，考虑所有三种关系（“APE”）构建了表现最佳的框架，这证明了我们三边分析的有效推动。

需要培训的 APE-T。在图 10 (b) 中，我们比较了 APE-T 中不同可学习模块的影响，包括视觉 F 0 和文本 W 的类别残差 Res，以及缓存分数 RF 0W0 。从所呈现的结果来看，每个可学习组件对于最好地释放 APE-T 的潜力都是必要的。我们观察到调整 W 中的细化特征通道比 F 0 更重要。这表明文本零样本预测的作用比缓存模型更重要，因为 CLIP 最初的预训练目标在于视觉语言对比。

6.结论

在本文中，我们提出了一种自适应先验调整方法（APE）来使 CLIP 适用于下游数据集。我们的 APE 使用两个标准提取信息丰富的特定领域特征通道，并深入研究三个 CLIP 提取的表示之间的三边关系。除此之外，我们提出了 APE 的两种模型变体，分别用于免训练和需要训练的小样本学习。大量的实验证明我们的方法不仅可以实现领先的少样本结果，而且可以获得卓越的效率。我们未来的方向将侧重于将 APE 扩展到除分类之外更广泛的基于 CLIP 的下游任务，例如开放世界对象检测、分割和 3D 点云识别，并进一步提高 APE-T 的训练效率，甚至实现无参数增强 [ 30、94、96]。