【嵌入式——QT】全局定义-CFANZ编程社区

相关LLMs论文大多都是应用型文章，少部分是优化prompt/参数量级等等…
有一些应用文还是值得参考的，当工作面临一个新的场景，可以学习下他人是如何结合LLMs与实际应用中的链接。

LLMs论文速览：2024.02.05-2024.02.10：

1.EntGPT: Linking Generative Large Language Models with Knowledge Bases

paper pdf：http://arxiv.org/pdf/2402.06738v1

摘要：
由于在训练和推理过程中缺乏事实检查和知识基础，大型语言模型（LLM）生成事实正确输出结果的能力相对来说仍有待探索。在这项工作中，我们旨在通过实体消歧（ED）任务来应对这一挑战。我们首先考虑了提示工程，并设计了一种三步硬提示方法，在没有监督微调（SFT）的情况下探测 LLM 的 ED 性能。总体而言，提示方法大大提高了原始 vanilla 模型的 micro-F_1 分数，在某些情况下甚至高达 36% 以上，并且在 10 个数据集上获得了与使用 SFT 的现有方法相当的性能。我们通过使用类似提示和回复的指令调整（IT）进一步提高了知识基础能力。与几种基线方法相比，经过指令调整的模型不仅在有监督的实体消歧任务中获得了更高的 micro-F1 分数性能，与现有基线模型相比，micro-F_1 平均提高了 2.1%，而且还在六种问题解答（QA）任务中获得了更高的零拍摄准确率。我们的方法同时适用于开源和闭源 LLM。

2.NICE: To Optimize In-Context Examples or Not?

paper pdf：http://arxiv.org/pdf/2402.06733v2

摘要：
最近的研究表明，上下文学习和优化上下文示例（ICE）可以显著提高大型语言模型（LLMs）在各种任务中的准确性，从而达成了一个明显的共识，即优化上下文示例对于提高性能至关重要。然而，这些研究大多假定提示中提供的指令是固定的或没有指令。我们挑战了这一共识，研究了在提供特定任务指令时优化 ICE 的必要性，并发现在某些任务中，优化 ICE 的收益会递减。我们发现，随着提示指令变得越来越详细，优化 ICE 的收益也越来越小。为了描述这种行为，我们引入了一种针对特定任务的指标，称为 “对示例选择的归一化不变性”（NICE），它可以量化任务从给定指令中的可学习性，并提供一种启发式方法，帮助决定是优化指令还是优化新任务的 ICE。在给定任务的情况下，与使用随机 ICE 相比，所提出的指标可以可靠地预测优化 ICE 的效用。

3.The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

paper pdf：http://arxiv.org/pdf/2402.06204v1

摘要：
本文探讨了这样一种假设，即擅长生成任务的大型语言模型（LLM）与评估者具有同等能力。我们使用 TriviaQA（Joshi 等人，2017 年）数据集评估了三个 LLM 和一个开源 LM 在问题解答（QA）和评估任务中的表现。结果表明，与生成任务相比，LLM 在评估任务中表现出了较低的性能，两者之间存在明显的差距。耐人寻味的是，我们发现了不忠实评价的情况，即模型在其缺乏能力的领域准确地评价了答案，这突出表明有必要研究 LLM 作为评价者的忠实性和可信度。这项研究有助于人们理解 “生成式人工智能悖论”（West 等人，2023 年），强调了探索卓越生成与评估能力之间的相关性的必要性，以及在模型评估中仔细检查忠实性方面的必要性。

4.Large Language Models: A Survey

paper pdf：http://arxiv.org/pdf/2402.06196v1

摘要：
自 2022 年 11 月 ChatGPT 发布以来，大型语言模型（LLM）因其在各种自然语言任务中的出色表现而备受关注。LLMs 的通用语言理解和生成能力是通过在海量文本数据上训练数十亿个模型参数而获得的，正如缩放定律所预测的那样（cite{kaplan2020scaling,hoffmann2022training}）。LLM 研究领域虽然刚刚起步，但正在以多种不同的方式迅速发展。在本文中，我们回顾了一些最著名的 LLM，包括三个流行的 LLM 系列（GPT、LLaMA、PaLM），并讨论了它们的特点、贡献和局限性。我们还概述了为构建和增强 LLM 而开发的技术。然后，我们调查了为 LLM 训练、微调和评估准备的流行数据集，回顾了广泛使用的 LLM 评估指标，并比较了几种流行的 LLM 在一组代表性基准上的性能。最后，我们讨论了尚未解决的挑战和未来的研究方向，以此结束本文。

5.Enhancing Zero-shot Counting via Language-guided Exemplar Learning

paper pdf：http://arxiv.org/pdf/2402.05394v1

摘要：
近来，类别无差别计数（CAC）问题因其引人入胜的通用性和优于特定类别计数（CSC）的效率而受到越来越多的关注。本文提出了一种新颖的 ExpressCount，通过深入研究语言引导的范例学习来增强零镜头对象计数。具体来说，ExpressCount 由一个创新的语言导向示例感知器和一个下游视觉零点计数管道组成。其中，感知器通过从当前预训练的大型语言模型（LLM）中继承丰富的语义先验，从协作语言视觉信号中挖掘准确的范例线索，而计数管道则通过双分支和交叉注意方案挖掘细粒度特征，为高质量的相似性学习做出贡献。除了在流行的 LLM 和视觉计数任务之间架起一座桥梁外，以表达为导向的示例估算还大大提高了对任意类别计数实例的零点学习能力。此外，设计带有细致语言表达注释的 FSC-147-Express 还为开发和验证基于语言的计数模型开辟了新的途径。广泛的实验证明了我们的 ExpressCount 具有最先进的性能，其准确性甚至可以与部分 CSC 模型相媲美。

6.LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors

paper pdf：http://arxiv.org/pdf/2402.04630v1

摘要：
受视觉语言模型（VLM）在图像分类任务中出色的零误差能力的启发，通过将广泛的 VLM 知识提取到检测器训练中，开放词汇物体检测吸引了越来越多的关注。然而，大多数现有的开放词汇检测器仅通过将区域嵌入与分类标签（如自行车）对齐来学习，而忽视了视觉语言模型将视觉嵌入与物体部件的细粒度文本描述（如踏板和铃铛）对齐的能力。本文介绍的 DVDet 是一种描述符增强型开放词汇检测器，它引入了条件上下文提示和分层文本描述符，可实现精确的区域-文本对齐以及一般的开放词汇检测训练。具体来说，条件上下文提示将区域嵌入转化为类似图像的表示，可直接集成到一般的开放词汇检测训练中。此外，我们还引入了大型语言模型作为交互式隐式知识库，从而能够迭代挖掘和完善视觉导向的文本描述符，实现精确的区域-文本对齐。在多个大规模基准测试中进行的广泛实验表明，DVDet 的性能始终远远优于最先进的技术。

7.MEMORYLLM: Towards Self-Updatable Large Language Models

paper pdf：http://arxiv.org/pdf/2402.04624v1

摘要：
现有的大型语言模型（LLM）在部署后通常保持静态，这可能会导致很难向模型中注入新知识。我们的目标是建立包含大量可自我更新参数的模型，使模型能够有效、高效地整合新知识。为此，我们引入了 MEMORYLLM，这是一个由变压器和变压器潜空间内固定大小的内存池组成的模型。MEMORYLLM 可以根据文本知识进行自我更新，并记忆之前注入的知识。我们的评估结果表明，MEMORYLLM 能够有效地吸收新知识，这一点可以从它在模型编辑基准测试中的表现得到证明。同时，该模型还具有长期信息保留能力，这一点通过我们定制的评估和长语境基准得到了验证。MEMORYLLM 还显示了运行的完整性，即使经过近百万次内存更新，也没有任何性能下降的迹象。

8.Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

paper pdf：http://arxiv.org/pdf/2402.05140v1

摘要：
大型语言模型（LLM）在理解和生成自然语言方面表现出了非凡的能力。然而，在预训练语料库中代表性不足的高度专业化领域，如物理和生物医学领域，它们的能力就会减弱。这项研究探讨了如何将通用 LLMs 改造成专业领域的有效任务求解器。我们引入了一个新颖的、与模型无关的框架，用于学习自定义输入标签，这些标签被参数化为连续向量，附加到 LLM 的嵌入层，以调节 LLM。我们设计了两类输入标签：领域标签用于限定专业表述（如化学公式）并提供与领域相关的上下文；功能标签用于表示特定功能（如预测分子特性）并压缩功能求解指令。我们开发了一种三阶段协议，利用辅助数据和领域知识来学习这些标签。通过明确地将任务域与任务功能分开，我们的方法可以通过输入标签的不同组合，实现对未见问题的零点泛化。它还提高了 LLM 在各种专业领域的性能，如预测蛋白质或化学性质以及模拟药物与靶标的相互作用，其表现优于为这些任务量身定制的专家模型。

9.Training Language Models to Generate Text with Citations via Fine-grained Rewards

paper pdf：http://arxiv.org/pdf/2402.04315v1

摘要：
虽然最近的大型语言模型（LLM）已被证明在回答用户查询方面非常有用，但它们容易产生幻觉，而且由于缺少可靠来源的引用，它们的回答往往缺乏可信度。解决这些问题的一个直观办法是在文中引用外部文件作为证据。虽然以前的工作直接促使 LLM 生成内文引文，但其性能远不能令人满意，尤其是在涉及较小的 LLM 时。在这项工作中，我们提出了一种有效的训练框架，利用细粒度奖励来教会 LLM 生成高度支持性和相关性的引文，同时确保其回答的正确性。我们还对将这些细粒度奖励应用于常见的 LLM 培训策略进行了系统分析，证明了其相对于传统做法的优势。我们在取自 ALCE 基准的问题解答 (QA) 数据集上进行了广泛的实验，并使用 EXPERTQA 验证了模型的通用性。在 LLaMA-2-7B 上，细粒度奖励的加入实现了基线中最好的性能，甚至超过了 GPT-3.5-turbo 的性能。

10.RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

paper pdf：http://arxiv.org/pdf/2402.03610v1

摘要：
由于最近的进步，大型语言模型（LLM）现在可以作为代理部署在机器人、游戏和应用程序接口集成等领域日益复杂的决策应用中。然而，将过去的经验反映到当前的决策过程中这一人类与生俱来的行为仍面临着巨大的挑战。针对这一问题，我们提出了检索-增强规划（RAP）框架，旨在动态利用与当前情况和上下文相对应的过去经验，从而增强代理的规划能力。RAP 的与众不同之处在于它的多功能性：它在纯文本和多模态环境中都表现出色，因此适用于各种任务。实证评估证明了 RAP 的有效性，它在文本场景中实现了 SOTA 性能，并显著提高了多模态 LLM 代理执行具身任务的性能。这些结果凸显了 RAP 在提高 LLM 代理在复杂的真实世界应用中的功能和适用性方面的潜力。

11.LB-KBQA: Large-language-model and BERT based Knowledge-Based Question and Answering System

paper pdf：http://arxiv.org/pdf/2402.05130v2

摘要：
生成式人工智能（AI）因其新兴的能力，为各个领域注入了活力，其中一个典型的领域就是大型语言模型（LLM）。大型语言模型（LLM）是生成式人工智能的典型应用领域之一，与传统的人工智能方法相比，LLM 的自然语言理解能力得到了显著提高。自然语言理解能力一直是影响基于知识的问答系统（KBQA）意图识别性能的一个障碍，其原因在于语言的多样性和新出现的意图。传统的基于人工智能的意图识别方法可分为基于语义解析的方法和基于模型的方法。然而，这两种方法在意图识别方面都存在资源有限的问题。针对这一问题，我们提出了一种基于大语言模型（LLM）和 BERT 的新型 KBQA 系统（LB-KBQA）。在生成式人工智能的帮助下，我们提出的方法可以检测新出现的意图并获取新知识。在金融领域的问题解答实验中，我们的模型表现出了卓越的功效。

12.Enhancing Textbook Question Answering Task with Large Language Models and Retrieval Augmented Generation

paper pdf：http://arxiv.org/pdf/2402.05128v2

摘要：
由于上下文和多模态数据的复杂性，教科书问题解答（TQA）是人工智能领域一项具有挑战性的任务。虽然以往的研究已大大改进了这项任务，但仍存在一些局限性，包括模型的推理能力较弱以及无法捕捉冗长语境中的上下文信息。大型语言模型（LLM）的引入给人工智能领域带来了革命性的变化，然而，直接应用 LLM 往往会导致答案不准确。本文提出了一种方法，通过结合检索增强生成（RAG）技术和利用迁移学习来处理冗长的上下文并增强推理能力，从而处理 TQA 中概念分散在不同课程中的域外场景。通过对 LLM 模型 Llama-2 进行有监督的微调并结合 RAG，我们的架构优于基线，在非图表选择题的验证集上提高了 4.12% 的准确率，在测试集上提高了 9.84% 的准确率。