Many-Shot In-Context Learning in Multimodal Foundation Models
相关链接:arxiv 关键字:Multimodal Foundation Models、In-Context Learning (ICL)、Many-Shot Learning、GPT-4o、Gemini 1.5 Pro
摘要
大型语言模型以其在小样本情境学习(ICL)方面的有效性而闻名。最新进展的多模态基础模型已经使得前所未有地长上下文窗口成为可能,为探索其在提供更多示例情况下执行ICL的能力提供了机会。在这项工作中,我们评估了多模态基础模型从小样本到大样本ICL的性能。我们对GPT-4o和Gemini 1.5 Pro进行了基准测试,涵盖了跨多个领域(自然图像、医学图像、遥感和分子图像)和任务(多类别、多标签和细粒度分类)的10个数据集。我们观察到在所有数据集中,大样本ICL(包括高达近2000个多模态示例)与小样本ICL(<100个示例)相比,都取得了显著的改进。此外,Gemini 1.5 Pro性能在许多数据集上继续显示出随着测试示例数增加的对数线性改善。考虑到大样本ICL所需的长提示会带来高昂的推理成本,我们还探讨了在单个API调用中批量处理多个查询的影响。我们表明,批量处理多达50个查询可以在零样本和大样本情境学习下提升性能,尤其是在多个数据集的零样本设置下,同时大幅降低了每次查询的成本和延迟。最后,我们衡量了模型的ICL数据效率,或者模型从更多示例中学习的速率。我们发现,虽然GPT-4o和Gemini 1.5 Pro在所有数据集上的零样本性能相似,但在多数数据集上,Gemini 1.5 Pro表现出比GPT-4o更高的ICL数据效率。我们的结果表明,大样本ICL能使用户有效地将多模态基础模型适应于新的应用和领域。我们的代码库已公开:https://github.com/stanfordmlgroup/ManyICL。
核心方法
- 模型和数据集选择:选择GPT-4o和Gemini 1.5 Pro模型在自然图像、医学图像、遥感和分子图像等多个领域的10个数据集上进行性能基准测试。
- ICL数据效率评估:通过增加示例数来评估模型的ICL数据效率,找出Gemini 1.5 Pro在多数数据集上比GPT-4o显示出更高的数据效率。
- 批量查询处理:为了解决高昂的推理成本,探究了在单个API调用中批量处理多个查询的影响,显示出在零样本和大样本情况下都能提升性能,同时大大降低了成本和延迟。
实验说明
数据集 | GPT-4o性能 | Gemini 1.5 Pro性能 | 零样本 | 最佳效果 | 有效性 |
---|---|---|---|---|---|
HAM10000 | 34.93 | 33.33 | 53.59 | 56.46 | 6.94 |
FIVES | 31.67 | 25.83 | 37.50 | 55.00 | 7.56 |
CheXpert | 28.47 | 22.16 | 42.54 | 42.23 | 9.06 |
Camelyon17 | 77.00 | 71.00 | 90.00 | 83.00 | 3.00 |
TerraIncognita | 29.26 | 59.63 | 59.26 | 66.67 | 3.50 |
说明:表格展示了GPT-4o和Gemini 1.5 Pro在各个数据集上从零样本到大样本ICL的性能,以及它们的ICL数据效率。数据表明,在大部分数据集上,Gemini 1.5 Pro比GPT-4o有更好的性能提升和数据效率。
结论
我们的工作评估了最新多模态基础模型在多个数据集上进行大样本情境学习(ICL)的能力,并发现相比于小样本ICL,大样本ICL能显著提高性能。此外,我们还展示了在单个API调用中批量处理多个查询可以在不同数据集的零样本和大样本设置下提升性能,同时显著降低每次查询的成本和延迟。我们的研究表明,大样本ICL可以使用户更有效地将多模态基础模型适应新的应用和领域。