多模态AnyGPT——整合图像、语音和文本多模态大规模语言模型算法原理与实践-CFANZ编程社区

文章目录~

1.Learn from Failure: Fine-Tuning LLMs with Trial-and-Error Data for Intuitionistic Propositional Logic Proving
2.Continuous Language Model Interpolation for Dynamic and Controllable Text Generation
3.Event Grounded Criminal Court View Generation withCooperative (Large) Language Models
4.Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy
5.MetaCheckGPT -- A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models
6.Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation
7.Adapting LLaMA Decoder to Vision Transformer
8.Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology
9.Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?
10.Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks
11.MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
12.Latent Distance Guided Alignment Training for Large Language Models
13.Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models
14.Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection
15.FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models
16.Event-enhanced Retrieval in Real-time Search
17.Optimization Methods for Personalizing Large Language Models through Retrieval Augmentation
18.LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
19.CodecLM: Aligning Language Models with Tailored Synthetic Data
20.MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
21.LTNER: Large Language Model Tagging for Named Entity Recognition with Contextualized Entity Marking
22.Evaluating Interventional Reasoning Capabilities of Large Language Models
23.PetKaz at SemEval-2024 Task 3: Advancing Emotion Classification with an LLM for Emotion-Cause Pair Extraction in Conversations
24.PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text?
25.RoT: Enhancing Large Language Models with Reflection on Search Trees
26.PerkwE_COQA: enhance Persian Conversational Question Answering by combining contextual keyword extraction with Large Language Models
27.LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding
28.Plug and Play with Prompts: A Prompt Tuning Approach for Controlling Text Generation
29.A Note on LoRA
30.HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models
31.SilverSight: A Multi-Task Chinese Financial Large Language Model Based on Adaptive Semantic Space Learning
32.FRACTAL: Fine-Grained Scoring from Aggregate Text Labels
33.PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics
34.Binary Classifier Optimization for Large Language Model Alignment
35.On the Limitations of Large Language Models (LLMs): False Attribution
36.Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models
37.Deciphering Political Entity Sentiment in News with Large Language Models: Zero-Shot and Few-Shot Strategies
38.Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
39.Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction

1.Learn from Failure: Fine-Tuning LLMs with Trial-and-Error Data for Intuitionistic Propositional Logic Proving

paper pdf:http://arxiv.org/pdf/2404.07382v1

摘要：
自动定理证明的最新进展表明，利用（大型）语言模型生成策略（即证明步骤）来搜索证明状态是非常有效的。当前的模型虽然只根据成功的证明路径进行训练，但在推理阶段却面临着差异，因为它必须在每个证明状态下采样并尝试各种策略，直到找到成功的方法，这与它的训练不同，它没有从失败的尝试中学习。直观地说，导致搜索路径失败的策略表明，类似的策略在接下来的试验中应受到较少关注。在本文中，我们展示了训练模型的好处，即模型可以从失败的搜索路径中学习。面对现有开源定理证明数据集中缺乏此类试错数据的问题，我们策划了一个直觉命题逻辑定理数据集，并用 Lean 形式化了它，这样我们就能可靠地检查证明的正确性。我们将根据相对较短的试错信息（TrialMaster）训练的模型与仅根据正确路径训练的模型进行了比较，发现前者能以较低的试错搜索次数解决更多未见定理。

2.Continuous Language Model Interpolation for Dynamic and Controllable Text Generation

paper pdf:http://arxiv.org/pdf/2404.07117v1

摘要：
随着大型语言模型（LLM）在各种用例中的普及，使其具有适应性和可控性变得越来越重要，尤其是对于面向用户的应用。关于 LLM 适应性的现有文献主要关注于找到一个（或多个）模型来优化单一的预定义目标，而在这里，我们关注的是具有挑战性的情况，即模型必须动态地适应多种多样且经常变化的用户偏好。为此，我们利用基于线性权重插值的适应方法，将其作为连续的多域插值器，即时生成具有特定规定生成特征的模型。具体来说，我们使用低等级更新对基础模型进行微调，使其适应各种不同的领域，从而产生一组具有不同生成特征的锚模型。然后，我们使用这些锚模型的权重更新来参数化其凸壳中包含的整个（无限）模型类别。我们的经验表明，改变插值权重可以使模型输出在所有受控属性方面产生可预测的一致变化。我们发现大多数属性之间几乎不存在纠缠，并识别和讨论了不存在纠缠的属性对。我们的研究结果表明，在微调模型的权重之间进行线性插值，有助于同时对多个风格特征的模型输出进行可预测的精细控制。

3.Event Grounded Criminal Court View Generation withCooperative (Large) Language Models

paper pdf:http://arxiv.org/pdf/2404.07001v1

摘要：
随着法律智能的发展，刑事法庭观点生成作为法律智能的一项重要任务备受关注，其目的是生成简洁连贯的文本，对案件事实进行总结，并对判决进行解释。现有研究探索案件事实中的关键信息以生成法庭观点。其中大多数研究采用粗粒度方法，将事实分割成宽泛的片段（如与判决相关的句子）来进行预测。然而，这种方法无法捕捉案件事实中的复杂细节，如各种犯罪要素和法律事件。为此，我们在本文中提出了一种利用合作（大型）语言模型生成刑事法庭视图的事件基础生成（EGG）方法，该方法将细粒度的事件信息引入到生成过程中。具体来说，我们首先设计了一种基于 LLMs 的提取方法，它可以在没有大量注释事件的情况下提取案件事实中的事件。然后，我们通过合并案件事实和事件，将提取的事件纳入法庭视图生成。此外，考虑到在 EGG 提取阶段使用 LLMs 所带来的计算负担，我们提出了一种无 LLMs 的 EGG 方法，该方法可以在推理阶段消除使用 LLMs 提取事件的要求。在实际数据集上的大量实验结果清楚地验证了我们提出的方法的有效性。

4.Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy

paper pdf:http://arxiv.org/pdf/2404.06954v1

摘要：
最近，动态计算方法通过精心设计的启发式方法或额外的预测器跳过了几层计算，从而显著加快了大型语言模型（LLM）的速度。然而，在现有方法的解码过程中，不同的样本会被分配不同的计算预算，这无法保证稳定而精确的加速效果。此外，现有方法一般会跳过层底或层顶的多个连续层，导致模型的层向表示发生剧烈变化，从而导致性能下降。因此，我们提出了一种 "统一跳层 "策略，即仅根据目标加速比来选择跳过计算的层数，然后均衡地跳过相应数量的中间层计算。由于统一跳层策略与输入样本无关，它自然支持批量解码和 KV 缓存等流行的加速技术，因此在实际应用中更具实用性。在机器翻译和文本摘要这两种常见任务上的实验结果表明，与现有的动态方法相比，在给定目标加速比的情况下，统一跳层策略能显著提高推理性能和实际模型吞吐量。

5.MetaCheckGPT – A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models

paper pdf:http://arxiv.org/pdf/2404.06948v2

摘要：
大型语言模型（LLM）中的幻觉最近成为一个重要问题。最近在这个方向上的一项努力是 Semeval 2024 任务 6 的共享任务 SHROOM，即关于幻觉和相关可观察到的过量生成错误的共享任务。本文介绍了我们的获胜解决方案，它在模型不可知论和模型感知两个子任务中分别排名第一和第二。我们提出了一个用于模型评估和集成的 LLM 元回归框架，该框架在排行榜上获得了最高分。我们还试验了各种基于转换器的模型和黑盒方法，如 ChatGPT、Vectara 等。此外，我们还对 GPT4 和我们的最佳模型进行了误差分析比较，结果显示了前者的局限性。

6.Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2404.06910v1

摘要：
尽管大型语言模型（LLM）取得了巨大成功，但它们也表现出明显的缺点，尤其是在处理长语境时。它们的推理成本与序列长度成二次方关系，因此在一些实际文本处理应用（如检索增强生成（RAG））中的部署成本很高。此外，LLM 还表现出 “分心现象”，即提示中的无关上下文会降低输出质量。为了解决这些问题，我们提出了一种新颖的 RAG 提示方法–叠加提示，它可以直接应用于基于转换器的预训练 LLM，而无需进行微调。在高层次上，叠加提示法允许 LLM 以并行提示路径处理输入文档，一旦认为路径不相关，就将其丢弃。我们利用多个预先训练好的 LLM 演示了我们的方法在各种问题解答基准中同时提高时间效率的能力。此外，当检索的上下文相对于模型所训练的上下文较大时，我们的技术也能显著提高准确性。例如，在 NaturalQuestions-Open 数据集上，我们的方法使用 MPT-7B 指令调整模型比天真的 RAG 减少了 93 倍的计算时间，同时提高了 43% 的准确率。

7.Adapting LLaMA Decoder to Vision Transformer

paper pdf:http://arxiv.org/pdf/2404.06773v1

摘要：
这项研究探讨了像 LLaMA 这样最初为大型语言模型 (LLM) 而设计的纯解码器变换器能否适用于计算机视觉领域。我们首先逐步 "LLaMAfy "一个标准的 ViT，使其与 LLaMA 的架构相匹配，结果发现直接在自注意力上应用随意遮罩会带来注意力崩溃问题，导致网络训练失败。我们建议采用后序列类标记技术将类标记重新定位到图像标记的后面，以克服这一难题，从而使因果自注意能够有效地捕捉整个图像的信息。此外，我们还开发了一种软掩码策略，在训练开始时逐渐为自我注意引入随意掩码，以促进优化行为。量身定制的模型被称为图像 LLaMA（iLLaMA），在结构上类似于 LLaMA，可以实现直接监督学习。iLLaMA 的性能可与仅使用编码器的同类产品相媲美，仅需 570 万个参数就能达到 75.1% 的 ImageNet top-1 准确率。将模型扩展到 ~310M 并在 ImageNet-21K 上进行预训练后，准确率进一步提高到 86.0%。大量实验证明了 iLLaMA 的可靠特性：校准、形状-纹理偏差、量化兼容性、ADE20K 分割和 CIFAR 转移学习。我们希望我们的研究能为 LLMs 浪潮中的视觉模型设计带来新的视角。预训练模型和代码可在此处获取。

8.Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology

paper pdf:http://arxiv.org/pdf/2404.06680v1

摘要：
从电子病历系统中检索信息对于回答有关病人旅程的具体问题和改善临床护理服务至关重要。尽管如此，大多数电子病历系统仍然依赖于基于关键字的搜索。随着生成式大语言模型（LLM）的出现，检索信息可以带来更好的搜索和总结能力。这种检索器还能为检索增强生成（RAG）管道提供信息，以回答任何查询。然而，从电子病历系统中包含的电子病历真实世界临床数据中检索信息以解决多个下游用例的任务具有挑战性，这是因为创建查询-文档支持对存在困难。我们提供了一个使用大型语言模型以经济实惠的方式创建此类数据集的蓝图。在肿瘤学数据元素方面，我们的方法产生的检索器比 Ada 和 Mistral 等专有同类检索器好 30-50 F-1 分。我们还进一步将我们的模型（称为 Onco-Retriever）与经过微调的 PubMedBERT 模型进行了比较。我们对真实世界的电子病历数据进行了广泛的人工评估，并对不同模型进行了延迟分析，为医疗机构构建特定领域的检索器提供了一条前进之路。

9.Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?

paper pdf:http://arxiv.org/pdf/2404.06510v1

摘要：
增强视觉语言模型（VLM）的语义基础能力通常需要收集特定领域的训练数据、完善网络架构或修改训练配方。在这项工作中，我们大胆尝试一个正交方向，探索视觉语言模型是否可以通过 "接收 "反馈来提高语义接地能力，而无需领域内数据、微调或修改网络架构。我们利用由二进制信号组成的反馈机制对这一假设进行了系统分析。我们发现，如果给予适当的提示，VLMs 可以在单步和迭代中利用反馈，从而展示了反馈作为一种替代技术来改善互联网规模 VLMs 接地的潜力。此外，VLM 和 LLM 一样，在开箱即用的情况下很难自我纠错。不过，我们发现可以通过二进制验证机制来缓解这一问题。最后，我们探讨了将这些发现综合起来并迭代应用以自动提高 VLMs 接地性能的潜力和局限性，结果表明，在所有被调查的环境中，所有模型的接地准确性在使用自动反馈后都得到了持续提高。总体而言，我们的迭代框架在无噪声反馈的情况下提高了VLM的语义接地精度15个点以上，在简单的自动二进制验证机制下提高了5个精度点。项目网站：https://andrewliao11.github.io/vlms_feedback

10.Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks

paper pdf:http://arxiv.org/pdf/2404.06480v2

摘要：
最近，大型语言模型（LLM）界对增强 LLM 处理超长文档的能力表现出越来越大的兴趣。随着各种长文本技术和模型架构的出现，对模型的长文本能力进行精确而详细的评估变得越来越重要。现有的长文本评估基准（如 L-Eval 和 LongBench）基于开源数据集构建长文本测试集，主要侧重于质量保证和摘要任务。这些数据集包括不同长度（从 2k 到 32k+ 不等）的测试样本，这些样本纠缠在一起，使得在不同长度范围内评估模型能力具有挑战性。此外，这些数据集也不包括最新的 LLM 所声称能实现的超长设置（10 万个以上词条）。在本文中，我们介绍了 Ada-LEval，这是一种长度适应性基准，用于评估 LLM 的长语境理解能力。Ada-LEval 包括两个具有挑战性的子集：TSort 和 BestAnswer，可对 LLM 的长语境能力进行更可靠的评估。这些基准支持对测试用例长度的复杂操作，可以轻松生成多达 128k 字节的文本样本。我们使用 Ada-LEval 评估了 4 个最先进的闭源 API 模型和 6 个开源模型。评估结果表明了当前 LLM 的局限性，尤其是在超长上下文设置中。我们的代码见 https://github.com/open-compass/Ada-LEval。

11.MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

paper pdf:http://arxiv.org/pdf/2404.06395v1

摘要：
开发拥有多达万亿个参数的大型语言模型（LLMs）的兴趣日渐浓厚，但人们对资源效率和实际开支却感到担忧，特别是考虑到实验的巨大成本。在这种情况下，探索小型语言模型（SLM）作为资源节约型替代方案的潜力就显得尤为重要。在这种情况下，我们引入了 MiniCPM，特别是 1.2B 和 2.4B 非嵌入参数变体，它们不仅在各自的类别中表现出色，而且还展示了与 7B-13B LLM 不相上下的能力。在关注 SLM 的同时，我们的方法在模型和数据两个维度上都表现出了可扩展性，适合未来的 LLM 研究。在模型扩展方面，我们采用了大量的模型风洞实验，以实现稳定和最佳的扩展。在数据扩展方面，我们引入了热身-稳定-衰减（WSD）学习率调度器（LRS），有利于持续训练和领域适应。我们深入分析了 WSD LRS 中发生的有趣的训练动态。有了 WSD LRS，我们现在无需在模型和数据两个轴上进行大量的再训练实验，就能高效地研究数据模型的缩放规律，并由此得出比 Chinchilla Optimal 高得多的计算最佳数据模型比。此外，我们还介绍了 MiniCPM 系列，包括 MiniCPM-DPO、MiniCPM-MoE 和 MiniCPM-128K，它们的卓越性能进一步巩固了 MiniCPM 在各种 SLM 应用中的基础。MiniCPM 型号可通过 https://github.com/OpenBMB/MiniCPM 公开获取。

12.Latent Distance Guided Alignment Training for Large Language Models

paper pdf:http://arxiv.org/pdf/2404.06390v1

摘要：
确保与人类偏好保持一致是大型语言模型（LLM）的一个重要特征。目前，主要的配准方法 RLHF 和 DPO 都需要大量的人工标注，尽管效果显著，但成本高昂。目前的配准技术耗资巨大，这促使研究人员研究开发无需注释的配准训练方法。为了在不依赖外部注释的情况下改进配准，我们引入了潜距离引导配准训练（LD-Align）。这种方法旨在利用潜在空间的指导，将模型与高质量的监督微调数据集进行配准。潜空间是通过样本重构生成的，类似于自动编码。因此，我们利用潜空间中样本对之间的距离来指导基于 DPO 的配准训练。广泛的实验和评估表明，我们提出的方法能有效实现显著的配准。

13.Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

paper pdf:http://arxiv.org/pdf/2404.06209v1

摘要：
虽然许多人已经展示了大型语言模型（LLM）如何应用于各种任务，但数据污染和记忆等关键问题往往被忽视。在这项工作中，我们针对表格数据解决了这一问题。具体来说，我们引入了各种不同的技术来评估语言模型在训练过程中是否看到过表格数据集。这项调查显示，LLM 已经逐字记住了许多流行的表格数据集。然后，我们将 LLM 在训练过程中见过的数据集上的少量学习性能与训练后发布的数据集上的性能进行了比较。我们发现，LLMs 在训练期间的数据集上表现更好，这表明记忆会导致过度拟合。同时，LLM 在新数据集上表现出非同一般的性能，而且对数据转换的鲁棒性令人惊讶。然后，我们研究了 LLM 的上下文统计学习能力。在没有微调的情况下，我们发现它们的能力有限。这表明，LLM 在新数据集上的寥寥几笔表现主要归功于 LLM 的世界知识。总之，我们的结果凸显了测试 LLM 在预训练期间是否看过评估数据集的重要性。我们将开发的暴露测试作为 tabmemcheck Python 软件包发布在 https://github.com/interpretml/LLM-Tabular-Memorization-Checker 上。

14.Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection

paper pdf:http://arxiv.org/pdf/2404.06194v2

摘要：
开放词汇的人-物互动（HOI）检测是指在自然语言的引导下检测新的人-物互动问题，对于理解以人为中心的场景至关重要。然而，先前的零镜头 HOI 检测器通常采用相同级别的特征图来模拟不同距离的 HOI，导致在包含距离范围较大的人-物对的场景中性能不佳。此外，这些检测器主要依赖于类别名称，而忽略了语言所能提供的丰富的上下文信息，而这些信息对于捕捉开放词汇概念至关重要，因为这些概念通常比较罕见，而且仅靠类别名称无法很好地体现。在本文中，我们利用视觉语言模型（VLM）的潜力，介绍了一种新型端到端开放词汇 HOI 检测框架，该框架具有条件多级解码和细粒度语义增强（CMD-SE）功能。具体来说，我们建议在双向匹配过程中加入软约束，用不同层次的特征图对不同距离的人-物对进行建模。此外，通过利用大型语言模型（LLM）（如 GPT 模型），我们利用其广泛的世界知识来生成各种交互的人体部位状态描述。然后，我们整合了人体部位的通用语义和细粒度语义，从而提高了交互识别能力。在 SWIG-HOI 和 HICO-DET 两个数据集上的实验结果表明，我们提出的方法在开放词汇 HOI 检测方面取得了最先进的成果。代码和模型可在 https://github.com/ltttpku/CMD-SE-release 上获取。

15.FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models

paper pdf:http://arxiv.org/pdf/2404.06003v1

摘要：
大型语言模型（LLM）评估方法和数据集的快速发展带来了一个深刻的挑战：如何在确保可靠性、可重复性和效率的同时，经济高效地整合最先进的评估技术。目前，明显缺乏一个统一且适应性强的框架来无缝整合各种评估方法。此外，由于潜在的数据污染，评估结果的可靠性往往受到质疑，而在面对与 LLM 推断相关的巨大成本时，评估效率通常会被忽视。为了应对这些挑战，我们引入了 FreeEval，这是一个模块化、可扩展的框架，旨在对 LLM 进行可信、高效的自动评估。首先，FreeEval 的统一抽象简化了各种评估方法的整合并提高了其透明度，包括需要复杂 LLM 交互的动态评估。其次，该框架集成了人工评估和数据污染检测等元评估技术，这些技术与平台中的动态评估模块一起，提高了评估结果的公平性。最后，FreeEval 采用高性能基础设施设计，包括分布式计算和缓存策略，可在多节点、多 GPU 集群上对开源和专有 LLM 进行广泛评估。

16.Event-enhanced Retrieval in Real-time Search

paper pdf:http://arxiv.org/pdf/2404.05989v1

摘要：
基于嵌入的检索（EBR）方法被广泛应用于主流搜索引擎检索系统中，并且在最近的检索增强方法中对消除 LLM 错觉至关重要。然而，现有的 EBR 模型经常面临 "语义漂移 "问题，对关键信息的关注不够，导致检索结果在后续步骤中的采用率较低。这一问题在实时搜索场景中尤为明显，因为互联网上流行事件的表达方式多种多样，使得实时检索在很大程度上依赖于关键事件信息。为解决这一问题，本文提出了一种名为 EER 的新方法，通过改进传统 EBR 的双编码器模型来提高实时检索性能。我们将对比学习与成对学习相结合，以优化编码器。此外，为了加强对事件中关键事件信息的关注，我们在文档编码器之后加入了解码器模块，引入了基于提示调谐的生成式事件三元组提取方案，并通过对比学习将事件与查询编码器优化相关联。该解码器模块可在推理过程中移除。大量实验证明，EER 可以显著提高实时搜索检索性能。我们相信，这种方法将为信息检索领域提供新的视角。代码和数据集可在 https://github.com/open-event-hub/Event-enhanced_Retrieval 上获取。

17.Optimization Methods for Personalizing Large Language Models through Retrieval Augmentation

paper pdf:http://arxiv.org/pdf/2404.05970v1

摘要：
本文研究了个性化大型语言模型（LLM）的检索增强方法，这些方法可能会对各种应用和领域产生重大影响。我们首次尝试优化检索模型，将数量有限的个人文档提供给大型语言模型，以实现个性化生成的目的。我们开发了两种优化算法，从下游个性化生成任务中获取反馈，以进行检索优化–一种算法基于强化学习，其奖励函数使用个性化生成的任意指标定义；另一种算法基于从下游 LLM 到检索模型的知识提炼。本文还介绍了生成前和生成后的检索器选择模型，该模型可决定为每个 LLM 输入选择何种检索器。在语言模型个性化（LaMP）基准的各种任务上进行的广泛实验表明，在七个数据集中，有六个数据集在统计学上有显著改进。

18.LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

paper pdf:http://arxiv.org/pdf/2404.05961v1

摘要：
大型纯解码器语言模型（LLM）是当今大多数 NLP 任务和基准测试中最先进的模型。然而，在需要丰富上下文表征的文本嵌入任务中，社区采用这些模型的速度却很慢。在这项工作中，我们引入了 LLM2Vec，这是一种简单的无监督方法，可以将任何仅有解码器的 LLM 转化为强大的文本编码器。LLM2Vec 包括三个简单步骤：1) 启用双向注意，2) 屏蔽下一个标记预测，3) 无监督对比学习。我们将 LLM2Vec 应用于 3 个参数从 1.3B 到 7B 不等的常用 LLM，证明了它的有效性，并在英语单词和序列级任务中对转换后的模型进行了评估。在单词级任务上，我们的表现远远优于纯编码器模型，并在大规模文本嵌入基准（MTEB）上达到了无监督的最新水平。此外，当将 LLM2Vec 与有监督的对比学习相结合时，我们在 MTEB 上取得了在仅使用公开数据进行训练的模型中最先进的性能。我们强有力的实证结果和广泛的分析表明，LLM 可以通过参数高效的方式有效地转化为通用文本编码器，而无需昂贵的适配或合成 GPT-4 生成数据。

19.CodecLM: Aligning Language Models with Tailored Synthetic Data

paper pdf:http://arxiv.org/pdf/2404.05875v1

摘要：
指令调整已成为使大型语言模型（LLM）与特定任务指令保持一致的关键，从而减少下一个标记预测目标与用户实际目标之间的差异。为了减少人工收集或注释数据的人力和时间成本，研究人员开始探索使用 LLM 生成与指令对齐的合成数据。近期的研究主要集中在生成多样化的指令和应用 LLM 来增加指令的复杂性，而往往忽略了下游的使用情况。目前仍不清楚如何在不同的目标指令分布和 LLM 中定制高质量数据，以激发更好的指令跟随能力。为此，我们引入了 CodecLM，这是一个通用框架，用于根据不同的下游指令分布和 LLM 自适应生成用于 LLM 匹配的高质量合成数据。借鉴 "编码-解码 "原则，我们使用 LLM 作为编解码器来指导数据生成过程。我们首先将种子指令编码为元数据，元数据是为捕捉目标指令分布而即时生成的简明关键字，然后解码元数据以创建定制指令。在解码过程中，我们还引入了自润滑和对比过滤技术，以定制数据效率高的样本。在四个开放领域指令跟踪基准上进行的广泛实验验证了 CodecLM 的有效性。

20.MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

paper pdf:http://arxiv.org/pdf/2404.05674v1

摘要：
在本文中，我们介绍了 MoMA：一种开放词汇、无需训练的个性化图像模型，具有灵活的零镜头功能。随着基础文本到图像模型的快速发展，对强大的图像到图像翻译的需求也在增长。为了满足这一需求，MoMA 专注于主题驱动的个性化图像生成。利用开源的多模态大语言模型（MLLM），我们对 MoMA 进行了训练，使其同时扮演特征提取器和生成器的双重角色。这种方法能有效协同参考图像和文本提示信息，生成有价值的图像特征，从而促进图像扩散模型的建立。为了更好地利用生成的特征，我们进一步引入了一种新颖的自我关注捷径方法，它能有效地将图像特征转移到图像扩散模型中，从而提高生成图像中目标对象的相似度。值得注意的是，作为一个无需调整的即插即用模块，我们的模型只需要一张参考图像，在生成具有高细节保真度、增强身份保护和及时忠实性的图像方面优于现有方法。我们的工作是开源的，因此可以让所有人都能使用这些先进技术。

21.LTNER: Large Language Model Tagging for Named Entity Recognition with Contextualized Entity Marking

paper pdf:http://arxiv.org/pdf/2404.05624v1

摘要：
近两年来，在自然语言处理中使用 LLM 已成为一种流行趋势，其强大的上下文理解和学习能力激发了学术界和业界专业人士的研究热潮。然而，对于某些 NLP 任务（如 NER），与监督学习方法相比，LLM 的性能仍有不足。在我们的研究中，我们开发了一种名为 LTNER 的 NER 处理框架，其中包含一种革命性的上下文实体标记 Gen 方法。通过利用经济高效的 GPT-3.5 和无需额外训练的上下文学习，我们显著提高了 LLM 处理 NER 任务的准确性。CoNLL03 数据集的 F1 分数从最初的 85.9% 提高到 91.9%，接近监督微调的性能。这一结果使我们对 LLMs 的潜力有了更深入的了解。

22.Evaluating Interventional Reasoning Capabilities of Large Language Models

paper pdf:http://arxiv.org/pdf/2404.05545v1

摘要：
许多决策任务都需要估计干预措施对系统不同部分的因果影响。当实践者考虑使用大型语言模型（LLM）来自动决策时，研究它们的因果推理能力就变得至关重要。最近的一项研究对大型语言模型检索常识性因果事实的能力进行了评估，但这些评估并没有充分评估大型语言模型是如何推理干预措施的。受干预在因果推理中所起作用的启发，我们在本文中进行了实证分析，以评估 LLMs 是否能针对干预准确地更新他们对数据生成过程的知识。我们创建了跨越不同因果图（如混杂、中介）和变量类型的基准，并对基于干预的推理进行了研究。通过这些基准，我们可以分离出 LLMs 因记忆事实或寻找其他捷径而准确预测变化的能力。我们对四种 LLM 的分析表明，虽然 GPT- 4 模型在预测干预效果方面表现出了良好的准确性，但它们对提示中的干扰因素仍然很敏感。

23.PetKaz at SemEval-2024 Task 3: Advancing Emotion Classification with an LLM for Emotion-Cause Pair Extraction in Conversations

paper pdf:http://arxiv.org/pdf/2404.05502v1

摘要：
在本文中，我们介绍了向 SemEval-2023 任务~3 "对话中的多模态情感原因分析竞赛 "提交的论文，重点是从对话中提取情感原因对。具体来说，我们的方法是将经过微调的 GPT-3.5 用于情感分类，并结合基于 BiLSTM 的神经网络来检测原因。在子任务 1 的排名中，我们获得了第二名的好成绩，我们的加权平均比例 F1 分数达到了 0.264，位居前列，这充分证明了我们方法的有效性。

24.PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text?

paper pdf:http://arxiv.org/pdf/2404.05483v1

摘要：
本文介绍了我们向 SemEval-2024 任务 8 "多生成器、多领域和多语言黑盒机器生成文本检测 "提交的论文，重点是英语机器生成文本（MGT）的检测。具体来说，我们的方法是将 RoBERTa 数据库中的嵌入与多样性特征相结合，并使用重新采样的训练集。我们在子任务 A（单语轨道）的 124 个排名中名列第 12 位，结果表明我们的方法可以在未见过的模型和领域中通用，准确率达到了 0.91。

25.RoT: Enhancing Large Language Models with Reflection on Search Trees

paper pdf:http://arxiv.org/pdf/2404.05449v2

摘要：
大语言模型（LLM）与基于树搜索的提示方法相结合，在推理和规划方面表现出了令人印象深刻的能力。然而，由于这些方法忽略了之前的搜索经验，因此在搜索过程中经常会犯同样的错误。为了解决这个问题，我们引入了搜索树反思（RoT），这是一个 LLM 反思框架，旨在提高基于树搜索的提示方法的性能。它使用强 LLM 总结以往树搜索经验的指导原则，以增强弱 LLM 的能力。这些指南是关于通过树搜索解决这项任务的指导，可以防止弱 LLM 在过去的搜索过程中犯类似的错误。此外，我们还提出了一种新颖的状态选择方法，它能从历史搜索过程中识别关键信息，帮助 RoT 生成更具体、更有意义的指南。在广泛的实验中，我们发现 RoT 在使用各种基于树搜索的提示方法（如 BFS 和 MCTS）执行推理或规划任务时，能显著提高 LLM 的性能。非基于树搜索的提示方法（如思维链（CoT））也能从 RoT 指南中获益，因为 RoT 可以提供从搜索经验中收集到的特定任务知识。

26.PerkwE_COQA: enhance Persian Conversational Question Answering by combining contextual keyword extraction with Large Language Models

paper pdf:http://arxiv.org/pdf/2404.05406v1

摘要：
智慧城市需要居民的参与，以提高生活质量。对话式问答是一种新兴的用户参与方式。人们对超越传统系统的高级对话式问答的需求与日俱增。现有方法表明，LLM 为 CQA 提供了有前途的功能，但可能难以捕捉到对话语境的细微差别。新方法涉及理解内容并与用户进行多步骤对话，以满足他们的需求。本文提出了一种提升波斯语会话问答（CQA）系统性能的新方法。它结合了大语言模型（LLM）和上下文关键词提取的优势。我们的方法提取对话流程中的特定关键词，为大型语言模型提供额外的语境，使其能够理解用户的意图，并生成更相关、更连贯的回答。我们通过各种指标评估了这种组合方法的有效性，结果表明，与仅使用 LLM 的基线相比，CQA 性能有了显著提高。所提出的方法能有效处理隐含问题，提供与上下文相关的答案，并能处理严重依赖对话上下文的复杂问题。研究结果表明，与现有方法和纯 LLM 基线相比，我们的方法比评估基准高出 8%。

27.LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding

paper pdf:http://arxiv.org/pdf/2404.05225v1

摘要：
最近，利用大型语言模型（LLM）或多模态大型语言模型（MLLM）进行文档理解已被证明非常有前景。然而，以往利用 LLMs/MLLMs 进行文档理解的工作并没有充分挖掘和利用文档布局信息，而这对于精确理解文档至关重要。在本文中，我们提出了基于 LLM/MLLM 的文档理解方法 LayoutLLM。LayoutLLM 的核心是一种布局指令调整策略，它是专门为增强对文档布局的理解和利用而设计的。拟议的布局指令调整策略由两部分组成：布局感知预训练（Layout-aware Pre-training）和布局感知监督微调（Layout-aware Supervised Fine-tuning）。在布局感知预训练中，为了捕捉文档布局的特点，引入了三组预训练任务，分别对应文档级、区域级和分段级信息。此外，我们还设计了一个名为布局思维链（LayoutCoT）的新模块，使 LayoutLLM 能够专注于与问题相关的区域，并生成准确的答案。LayoutCoT 可以有效提高文档理解的性能。同时，它还带来了一定程度的可解释性，从而方便了人工检查和修正。在标准基准上进行的实验表明，所提出的 LayoutLLM 明显优于采用开源 7B LLM/MLLM 进行文档理解的现有方法。LayoutLLM 的训练数据可在 https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LayoutLLM 公开获取。

28.Plug and Play with Prompts: A Prompt Tuning Approach for Controlling Text Generation

paper pdf:http://arxiv.org/pdf/2404.05143v1

摘要：
基于变换器的大型语言模型（LLM）在响应基于文本的提示时表现出了卓越的语言生成能力。然而，通过文本提示来控制生成方向一直是个挑战，尤其是对于较小的模型。在这项工作中，我们探索使用提示调整来实现可控语言生成。生成的文本使用提示嵌入来引导，而提示嵌入是使用一个小型语言模型作为判别器来训练的。此外，我们还证明了这些提示嵌入可以用一个非常小的数据集进行训练，最小的训练示例只有几百个。因此，我们的方法为控制语言模型输出提供了一种数据和参数高效的解决方案。我们在四个数据集上进行了广泛的评估：SST-5 和 Yelp（情感分析）、GYAFC（正式性）和 JIGSAW（有毒语言）。最后，我们证明了我们的方法在减少语言模型生成的有害、有毒和有偏见文本方面的功效。

29.A Note on LoRA

paper pdf:http://arxiv.org/pdf/2404.05086v1

摘要：
LoRA（Low-Rank Adaptation）已成为高效适配大型语言模型（LLMs）的首选方法，具有显著的简便性和有效性。本说明对最初的 LoRA 论文进行了扩展，提出了最初未曾讨论过的新观点，并对大规模部署 LoRA 提出了一系列见解。在不引入新实验的情况下，我们的目标是提高对 LoRA 的理解和应用。

30.HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models

paper pdf:http://arxiv.org/pdf/2404.05083v1

摘要：
虽然强大的模型架构和训练策略的探索推动了视频-文本检索领域的最新进展，但由于训练数据注释的低质量和稀缺性，视频-文本检索模型的表征学习能力仍然有限。为了解决这个问题，我们提出了一种新颖的视频-文本学习范例–HaVTR，它通过增强视频和文本数据来学习更广泛的特征。具体来说，我们首先采用一种简单的增强方法，通过随机复制或删除子词和帧来生成自相似数据。此外，受近年来视觉生成模型和语言生成模型发展的启发，我们提出了一种更强大的增强方法，通过使用大型语言模型（LLM）和视觉生成模型（VGM）进行文本解析和视频风格化。此外，为了在视频和文本中引入更丰富的信息，我们提出了一种基于幻觉的增强方法，即使用 LLM 和 VGM 生成新的相关信息并将其添加到原始数据中。得益于丰富的数据，在多个视频-文本检索基准上进行的大量实验证明了 HaVTR 优于现有方法。

31.SilverSight: A Multi-Task Chinese Financial Large Language Model Based on Adaptive Semantic Space Learning

paper pdf:http://arxiv.org/pdf/2404.04949v1

摘要：
大型语言模型（LLMs）正越来越多地应用于各个专业领域，利用其广泛的知识为这些领域内的多种场景提供支持。然而，每个领域都包含各种需要学习的特定任务，而这些领域中的各种异构数据可能会导致模型任务转移过程中的冲突。为了应对这一挑战，我们的研究引入了自适应语义空间学习（ASSL）框架，该框架利用语义空间内数据分布的自适应重组来提高多专家模型的性能和选择效率。利用该框架，我们训练了一个名为 "SilverSight "的金融多任务 LLM。我们的研究结果表明，我们的框架只需使用 10%的数据就能获得接近全数据训练的结果，同时还表现出很强的泛化能力。

32.FRACTAL: Fine-Grained Scoring from Aggregate Text Labels

paper pdf:http://arxiv.org/pdf/2404.04817v1

摘要：
大型语言模型（LLMs）正被越来越多地调整用于执行复杂的生成任务，如写作、事实搜索、查询和推理。传统上，用于评估和进一步调整 LLM 性能的人工或模型反馈都是在响应级别提供的，这样可以更快、更经济地进行评估。然而，最近的研究（Amplayo 等人[2022]、Wu 等人[2023]）表明，句子级标签可以为 LLM 优化提供更准确、更可解释的反馈。在这项工作中，我们介绍了将响应级标签分解为句子级（伪）标签的方法。我们的方法利用多实例学习（MIL）和标签比例学习（LLP）技术，结合先验信息（如文档-句子余弦相似度）来训练一个专门的句子级评分模型。我们还采用了一些技术，利用模型预测对句子级的训练集进行伪标注，以进一步提高模型训练的性能。我们在六个数据集和四个任务中对我们的方法进行了广泛的评估：检索、问题解答、总结和数学推理。我们的结果表明，与多个基线相比，我们在大多数任务中的性能都有所提高。我们的研究首次开发了句子级评分技术的响应级反馈，利用了句子级的先验信息，同时在多个任务上进行了全面评估，并进行了端到端的微调评估，结果表明其性能可与根据细粒度人类注释标签训练的模型相媲美。

33.PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics

paper pdf:http://arxiv.org/pdf/2404.04722v1

摘要：
尽管近年来大型语言模型（LLMs）取得了巨大进步，但其实际应用面临的一个显著而紧迫的挑战是幻觉现象，即模型捏造事实并产生非事实语句。为此，我们提出了一种有效的基于模型的白箱检测和预测方法–PoLLMgraph，即 LLM 的 Polygraph。PoLLMgraph 与通过黑盒评估应对此类挑战的大量现有研究截然不同。我们特别证明，通过可操作的概率模型分析 LLM 在生成过程中的内部状态转换动态，可以有效地检测幻觉。在各种开源 LLM 上的实验结果证实了 PoLLMgraph 的功效，在 TruthfulQA 等常见基准数据集上，PoLLMgraph 的 AUC-ROC 提高了 20% 以上，大大优于最先进的方法。我们的工作为基于模型的 LLM 白盒分析开辟了一条新路，激励研究界进一步探索、理解和完善 LLM 行为的复杂动态。

34.Binary Classifier Optimization for Large Language Model Alignment

paper pdf:http://arxiv.org/pdf/2404.04656v1

摘要：
通过偏好优化将大型语言模型（LLM）与人类偏好相匹配一直是至关重要的，但这需要大量人力，因为每个提示都需要评估者对选择和拒绝的文本完成情况进行比较。最近，Kahneman-Tversky 优化法（KTO）证明，只需对每对提示语–完成语使用 "竖起大拇指 "或 "放下大拇指 "的二进制信号，就能对 LLM 进行调整。在本文中，我们提出了解释通过这些二进制信号成功对齐的理论基础。我们的分析发现了一个新的视角：优化二元分类器（其对数为奖励）隐含地诱导了直接偏好优化（DPO）损失的最小化。在这一发现的过程中，我们发现了两种有效调整的技术：奖励转移和底层分布匹配。因此，我们提出了一种新算法–二进制分类器优化（textit{Binary Classifier Optimization}），将这两种技术融为一体。我们在两种情况下验证了我们的方法：第一，在配对偏好数据集上，我们的方法与 DPO 和 KTO 的性能相当；第二，在二进制信号数据集上，我们的方法模拟了真实世界中大拇指向上和大拇指向下数据的不同底层分布情况。在两个基础 LLM 和三个不同的二进制信号数据集上，我们的模型始终表现出有效而稳健的对齐，展示了我们从二进制反馈中学习的方法的优势。

35.On the Limitations of Large Language Models (LLMs): False Attribution

paper pdf:http://arxiv.org/pdf/2404.04631v1

摘要：
在这项工作中，我们深入探讨了大型语言模型（LLM）的一个重要局限，即错误归因，并引入了一种新的幻觉度量–简单幻觉指数（SHI）。对相对较小的文本块进行作者自动归属是一项重要的 NLP 任务，但却极具挑战性。我们通过经验评估了 3 种开放式 SotA LLM（LLaMA-2-13B、Mixtral 8x7B 和 Gemma-7B）在零镜头设置下的能力，尤其是在人工标注成本较高的情况下。我们根据古腾堡计划收集了最受欢迎的 10 本书，将每本书分成 400 个单词的等量块，并要求每个 LLM 预测作者。然后，我们从每本注释书籍中随机抽取了 162 个字段进行人工评估，误差率为 7%，置信度为 95%，其中字段最多的一本书（查尔斯-狄更斯的《远大前程》，共有 922 个字段）。平均结果显示，Mixtral 8x7B 的预测准确率最高，SHI 最低，皮尔逊相关性 ® 分别为 0.737、0.249 和 -0.9996，其次是 LLaMA-2-13B 和 Gemma-7B。然而，Mixtral 8x7B 在 3 本图书中出现了较高的幻觉，SHI 高达 0.87（在 0-1 范围内，1 为最差）。准确率和 SHI 的强烈负相关（由 r 表示）证明了新幻觉度量方法的准确性，该方法可用于其他任务。我们公开发布了带注释的数据块和我们的代码，以帮助其他模型的重现和评估。

36.Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models

paper pdf:http://arxiv.org/pdf/2404.04522v1

摘要：
参数高效微调（PEFT）方法已被广泛应用于大型语言模型（LLM）中，以改善下流任务，而无需以微调整个 LLM 为代价。最近的研究表明，如何有效地利用 PEFT 对 LLM 进行微调，以令人信服的性能完成排序任务；但也存在一些局限性，包括针对不同文档的学习提示固定不变、过度拟合特定任务以及适应能力较低等。在本文中，我们为文本重排引入了一种依赖查询的参数高效微调（Q-PEFT）方法，将真实查询的信息泄露给 LLM，从而使从输入文档生成真实查询变得更加容易。具体来说，我们利用查询从串联文档中提取前 k$ 个词组，作为上下文线索。我们进一步增强了 Q-PEFT，用多头注意力层取代检索机制，实现端到端训练，覆盖文档中的所有标记，引导 LLM 生成更多针对特定文档的合成查询，从而进一步提高重排性能。我们在四个公共数据集上进行了广泛的实验，证明了我们提出的方法的有效性。

37.Deciphering Political Entity Sentiment in News with Large Language Models: Zero-Shot and Few-Shot Strategies

paper pdf:http://arxiv.org/pdf/2404.04361v1

摘要：
情感分析在了解公众舆论方面起着举足轻重的作用，尤其是在政治领域，新闻文章中对实体的描述会影响公众的看法。在本文中，我们研究了大语言模型（LLM）在预测政治新闻文章中特定实体情感方面的有效性。我们利用 "零镜头 "和 "少镜头 "策略，探索 LLMs 分辨新闻内容中政治实体情感的能力。我们采用了一种思维链 (COT) 方法，并在少量内容学习中增加了合理性，以评估这种方法是否能提高情感预测的准确性。我们在情感标签数据集上进行的评估表明，LLM 在捕捉特定实体情感方面优于微调 BERT 模型。我们发现，在上下文中学习能显著提高模型性能，而自我一致性机制则能增强情感预测的一致性。尽管结果令人鼓舞，但我们发现 COT 提示方法的有效性并不一致。总之，我们的研究结果凸显了 LLM 在政治新闻领域以实体为中心的情感分析中的潜力，并强调了合适的提示策略和模型架构的重要性。

38.Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

paper pdf:http://arxiv.org/pdf/2404.04167v3

摘要：
在本研究中，我们介绍了一种 2B 大型语言模型（LLM）–CT-LLM，它说明了在开发 LLM 时优先考虑中文的关键转变。CT-LLM 从零开始，与传统方法不同的是，它主要采用中文文本数据，并使用了由 12000 亿个词块组成的庞大语料库，其中包括 8000 亿个中文词块、3000 亿个英文词块和 1000 亿个代码词块。这种策略性组合有助于该模型出色地理解和处理中文，通过对齐技术进一步增强了这一能力。CT-LLM 在 CHC-Bench 上表现出色，在中文任务中表现出色，并通过 SFT 展示了其在英文任务中的能力。这项研究挑战了目前主要在英语语料库中训练 LLM，然后将其应用于其他语言的模式，拓宽了 LLM 训练方法的视野。通过公开中文 LLM 训练的全过程，包括使用所获得的大规模适当预训练中文语料库 (MAP-CC)、精心选择的多学科中文困难案例基准 (CHC-Bench) 和 2B 大小的中文微小 LLM (CT-LLM) 进行详细数据处理的过程，我们旨在促进学术界和产业界的进一步探索和创新，为建立更具包容性和通用性的语言模型铺平道路。

39.Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction

paper pdf:http://arxiv.org/pdf/2404.03868v1

摘要：
在这项工作中，我们对从输入文本创建知识图谱（KGC）的自动化方法很感兴趣。大型语言模型（LLMs）方面的进展促使最近的一系列工作将其应用于知识图谱创建（KGC），例如通过零/少量提示（zero/few-shot prompting）。尽管这些模型在特定领域的小型数据集上取得了成功，但在扩展到许多实际应用中常见的文本时却面临着困难。一个主要问题是，在先前的方法中，KG 模式必须包含在 LLM 提示中才能生成有效的三连音；而更大、更复杂的模式很容易超出 LLM 的上下文窗口长度。为了解决这个问题，我们提出了一个名为 "提取-定义-规范化（EDC）"的三阶段框架：开放式信息提取，然后是模式定义和事后规范化。EDC 非常灵活，既可应用于有预定义目标模式的情况，也可应用于没有预定义目标模式的情况；在后一种情况下，它可自动构建模式并应用自规范化。为了进一步提高性能，我们引入了一个训练有素的组件，用于检索与输入文本相关的模式元素；这以类似检索增强生成的方式提高了 LLMs 的提取性能。我们在三个 KGC 基准上证明，EDC 能够提取高质量的三元组，而无需调整任何参数，与之前的研究相比，EDC 的模式明显更大。