0
点赞
收藏
分享

微信扫一扫

《Ubuntu20.04环境下的ROS学习笔记14》

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

摘要:
我们提出了一个新颖的框架,通过利用微调的多模态语言模型(MLMs)来过滤图像-文本数据。我们的方法通过整合MLMs的最新进展,超越了主要的过滤方法(例如CLIPScore)。我们设计了四种不同但互补的指标来全面衡量图像-文本数据的质量。建立了一个新的流程来构建高质量的指令数据,用于微调MLMs作为数据过滤器。与CLIPScore相比,我们的MLM过滤器产生更精确和全面得分,直接提高了过滤数据的质量,并提升了预训练模型的性能。我们在流行的基础模型(即CLIP和BLIP2)和各种下游任务上实现了对CLIPScore的显著改进。我们的MLM过滤器可以泛化到不同的模型和任务,并可用作CLIPScore的直接替代品。还提供了额外的消融研究来验证MLM过滤器的设计选择。

主要方法/架构:
在这里插入图片描述

  • MLM过滤器:结合MLMs的最新进展,用于图像-文本数据过滤。
  • 质量评估指标:设计了四种质量评估指标(ITM、ODF、CTQ、SU)来全面评估数据质量。
  • 指令调优数据构建:利用专有模型GPT-4或GPT-4V构建用于评分任务的多模态指令调优数据。
  • 微调MLM:在混合指令集上对多模态语言模型进行指令调优。

实验对比数据结果:

  • 在DataComp基准测试中,与CLIPScore相比,MLM过滤器在不同任务子组上显著提高了性能。

  • 在CLIP和BLIP-2模型上,使用MLM过滤器预训练的数据集显著优于使用CLIPScore过滤的数据集。

  • 人类评估显示,MLM过滤器生成的得分与人类评分显著相关,而CLIPScore则没有展示这种相关性。

  • MLM筛选器在不同基础模型(例如CLIP和BLIP2)以及各种下游任务上表现优于目前主流的图像-文本数据筛选方法。

  • 实验发现,使用MLM筛选器处理过的数据训练出的模型,在多个基准测试中超越了CLIP评分筛选器的性能。

  • 提出了四种评估数据质量的量化指标,并通过细致的实验展示了这些指标在数据筛选过程中的有效性。

结论:
我们提出了在质量评分任务上对多模态语言模型进行指令调优,并进一步利用这些微调的MLM作为有效的数据过滤器,从大规模网络爬取的数据集中选择高质量的图像-文本对。我们发现,在CLIP和BLIP-2模型上,使用我们提出的MLM过滤器预训练的数据集显著优于使用CLIPScore过滤的数据集,证明了我们提出的MLM过滤器优于CLIPScore过滤。

举报

相关推荐

0 条评论