0
点赞
收藏
分享

微信扫一扫

【ajax+node.js+webpack+git】学习笔记---ajax01

文章目录~

1.StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.13840v1

摘要
开发人员需要花费大量时间来查找与其问题相关的信息。Stack Overflow 一直是领先的资源,随着大型语言模型 (LLM) 的出现,ChatGPT 等生成模型也被频繁使用。然而,单独使用每一种模型都会遇到困难。搜索答案既耗时又乏味,研究人员为解决这一问题开发的许多工具就证明了这一点。另一方面,使用 LLM 并不可靠,因为它们可能会产生不相关或不可靠的答案(即幻觉)。在这项工作中,我们提出了基于 LLMs 的检索增强型多代理生成工具 StackRAG,它将两个世界结合在一起:聚合来自 SO 的知识,提高生成答案的可靠性。初步评估表明,生成的答案是正确、准确、相关和有用的。

2.FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering

paper pdf:http://arxiv.org/pdf/2406.13779v1

摘要
检索增强生成(RAG)由于能够利用搜索引擎来提高长式问题解答(LFQA)的质量,因此在问题解答(QA)任务中非常流行。尽管出现了各种开源方法和网络增强型商业系统(如 Bing Chat),但仍有两个关键问题尚未解决,即生成的长式答案缺乏事实依据和清晰逻辑。在本文中,我们通过对网络增强型 LFQA 中答案生成的系统研究来解决这些问题。具体来说,我们首先提出了一种新颖的大纲增强生成器,以在生成多元答案时实现清晰的逻辑,并构建了两个相应的数据集。然后,我们提出了一种基于精心设计的双重细粒度 RLHF 框架的事实性优化方法,该框架包含不同粒度级别的自动评估和奖励建模。我们的通用框架包括作为特例的传统细粒度 RLHF 方法。广泛的实验验证了我们提出的 \textit{Factuality-optimized RAG (FoRAG)} 方法在中英文基准上的优越性。特别是,当把我们的方法应用于 Llama2-7B 聊天时,得出的模型 FoRAG-L-7B 在三个常用指标(即一致性、有用性和事实性)上都优于 WebGPT-175B,而参数数量却少得多(仅为 WebGPT-175B 的 1/24)。为了提高可重复性,我们公开了数据集和模型:https://huggingface.co/forag。

3.Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.13663v2

摘要
确保模型答案的可验证性是问题解答(QA)领域中检索增强生成(RAG)的一个基本挑战。最近,有人提出了自引提示,让大型语言模型(LLM)在生成答案的同时生成支持文档的引文。然而,自引式 LLM 通常很难符合所需的格式,会引用不存在的来源,并且在整个生成过程中无法忠实反映 LLM 的上下文用法。在这项工作中,我们提出了 MIRAGE – 基于模型内部结构的 RAG 解释 – 一种即插即用的方法,利用模型内部结构在 RAG 应用程序中实现忠实的答案归属。MIRAGE 检测上下文敏感的答案标记,并将其与检索到的文档配对,通过显著性方法对其进行预测。我们在一个多语言抽取式质量保证数据集上对我们提出的方法进行了评估,结果发现该方法与人工答案归属具有很高的一致性。在开放式质检中,MIRAGE 的引用质量和效率可与自我引用相媲美,同时还能对归因参数进行更精细的控制。我们的定性评估强调了 MIRAGE 归因的忠实性,并强调了模型内部结构在 RAG 答案归因中的应用前景。

4.InstructRAG: Instructing Retrieval-Augmented Generation with Explicit Denoising

paper pdf:http://arxiv.org/pdf/2406.13629v1

摘要
检索增强生成(RAG)在提高语言模型(LM)的准确性和真实性方面显示出了巨大的潜力。然而,不完善的检索器或嘈杂的语料库会给检索内容带来误导甚至错误的信息,从而给生成质量带来巨大挑战。现有的 RAG 方法通常是通过直接预测最终答案来应对这一挑战的,尽管输入可能存在噪声,这就导致了难以解释和验证的隐式去噪过程。另一方面,获取显式去噪监督往往成本高昂,需要大量人力。在这项工作中,我们提出了 InstructRAG,即 LM 通过自我合成的理由明确地学习去噪过程–首先,我们指示 LM 解释如何从检索到的文档中得出地面实况答案。然后,这些理由既可以用作显式去噪的上下文学习示范,也可以用作训练模型的监督微调数据。与标准的 RAG 方法相比,InstructRAG 不需要额外的监督,可以更容易地验证预测的答案,并有效提高生成的准确性。实验表明,在无需训练和可训练的情况下,InstructRAG 始终优于现有的 RAG 方法,在五个知识密集型基准测试中,InstructRAG 比最佳基准方法平均提高了 8.3%。广泛的分析表明,随着检索文档数量的增加,InstructRAG 的规模也在不断扩大,即使在域外数据集中也始终表现出强大的去噪能力,显示出很强的通用性。

5.Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.13372v1

摘要
目前的问题解答系统利用检索增强生成功能,在回答事实类问题时表现出色,但在回答非事实类问题时却面临挑战,尤其是需要详细步骤说明和解释的如何查询。在本文中,我们介绍了一种新颖的数据组织范式 Thread,它能根据文档的相互连接性将文档转化为逻辑单元。在开放领域和工业场景中进行的大量实验表明,Thread 优于基于 RAG 的质量保证系统中的现有数据组织范式,显著改善了对如何提问的处理。

6.R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.13249v1

摘要
检索增强生成(RAG)已在许多场景中应用,利用检索器提供的外部文档增强大型语言模型(LLM)。然而,由于 LLM 和检索器的训练目标和架构不同,它们之间存在语义鸿沟。这种错位迫使 LLM 被动地接受检索器提供的文档,从而导致生成过程中的不理解,在生成过程中,LLM 要承担利用其固有知识区分这些文档的任务。本文提出了一种新颖的增强型 RAG 框架 R 2 ^2 2AG,通过将检索信息纳入检索增强生成来填补这一空白。具体来说,R 2 ^2 2AG 利用检索器的细微特征,采用 R 2 ^2 2Former 来捕捉检索信息。然后,设计一种检索感知提示策略,将检索信息整合到 LLM 生成中。值得注意的是,R 2 ^2 2AG 适合 LLM 和检索器冻结的低来源场景。在五个数据集上进行的广泛实验验证了 R 2 ^2 2AG 的有效性、鲁棒性和效率。我们的分析表明,检索信息在生成过程中起到了辅助 LLM 的作用,从而填补了语义空白。

7.Multi-Meta-RAG: Improving RAG for Multi-Hop Queries using Database Filtering with LLM-Extracted Metadata

paper pdf:http://arxiv.org/pdf/2406.13213v1

摘要
检索增强生成(RAG)能够从外部知识源检索相关信息,并允许大型语言模型(LLM)回答以前未见过的文档集的查询。然而,事实证明,传统的 RAG 应用程序在回答多跳问题时表现不佳,因为多跳问题需要对支持证据的多个元素进行检索和推理。我们引入了一种名为 "Multi-Meta-RAG "的新方法,它使用数据库过滤和 LLM 提取的元数据来改进 RAG 从各种来源选择与问题相关的文档。虽然数据库过滤适用于特定领域和格式的问题集,但我们发现,Multi-Meta-RAG 极大地改进了 MultiHop-RAG 基准的结果。代码见 https://github.com/mxpoliakov/Multi-Meta-RAG。

8.Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

paper pdf:http://arxiv.org/pdf/2406.13121v1

摘要
长语境语言模型(LCLM)有可能彻底改变我们处理传统上依赖检索系统或数据库等外部工具的任务的方法。利用 LCLMs 本机摄取和处理整个语料库信息的能力可带来诸多优势。它消除了对工具专业知识的需求,提高了用户友好性;提供了强大的端到端建模,最大限度地减少了复杂管道中的级联错误;并允许在整个系统中应用复杂的提示技术。为了评估这种模式的转变,我们引入了 LOFT,这是一个需要上下文多达数百万个标记的真实世界任务基准,旨在评估 LCLM 在上下文检索和推理方面的性能。我们的研究结果表明,尽管 LCLMs 从未针对这些任务进行过明确的训练,但其能力却足以与最先进的检索和 RAG 系统相媲美,令人惊讶。不过,LCLMs 在类似 SQL 任务所需的组合推理等领域仍面临挑战。值得注意的是,提示策略会对性能产生重大影响,这强调了随着上下文长度的增加而继续开展研究的必要性。总之,LOFT为LCLM提供了一个严格的试验场,展示了随着模型能力的扩展,LCLM取代现有范例和解决新任务的潜力。

9.Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.13050v1

摘要
尽管大型语言模型(LLMs)具有令人印象深刻的能力,但它们经常面临时间错位和产生幻觉内容等挑战。用检索机制来增强 LLM,以便从外部来源获取相关信息,这提供了一个很有前景的解决方案。受 "三思而后行 "这句谚语的启发,我们提出了一种双角度评估检索-增强生成框架(textit{Think-then-Act})。以往的方法会不加区分地重写查询或执行检索,或在决定是否进行额外检索之前生成临时响应,从而增加模型生成成本,与此不同,我们的框架采用了两阶段流程:(i) 评估输入查询的清晰度和完整性,以确定是否需要重写;(ii) 评估模型回答查询的能力,并决定是否需要进行额外检索。在五个数据集上的实验结果表明,textit{Think-then-Act}框架显著提高了性能。与现有基线相比,我们的框架在准确性和效率方面都有显著提高,并且在英语和非英语语境中都表现出色。消融研究验证了最佳模型置信度阈值,凸显了我们方法的资源优化优势。

10.From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

paper pdf:http://arxiv.org/pdf/2406.12824v1

摘要
检索增强生成(RAG)丰富了语言模型的推理能力,可利用外部上下文增强对给定用户提示的响应。由于语言模型在搜索、提问/回答和聊天机器人等各种应用中的实际应用,这种方法越来越受欢迎。然而,人们对这种方法的确切工作原理并不清楚。在本文中,我们从机制上研究了 RAG 管道,以强调语言模型会走捷径,并强烈倾向于只利用上下文信息来回答问题,而尽量少地依赖其参数记忆。我们通过以下方法探究语言模型的这种机制行为:(i) 因果中介分析(Causal Mediation Analysis)表明,在回答问题时,参数记忆被最小化利用;(ii) 注意力贡献(Attention Contributions)和剔除(Knockouts)表明,最后一个标记残流并没有从问题中的主题标记中得到丰富,而是从上下文中的其他信息标记中得到丰富。我们发现这种明显的捷径行为在 LLaMa 和 Phi 系列模型中都是正确的。

11.RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.12566v2

摘要
检索增强生成(RAG)可有效解决大型语言模型中的静态知识和幻觉问题。现有的研究大多侧重于用户意图明确、答案简洁的问题场景。然而,用户普遍会发出具有不同子意图的宽泛、开放式查询,他们希望得到涵盖多个相关方面的内容丰富的长式答案。为了解决这个重要但尚未得到充分探索的问题,我们提出了一个新颖的 RAG 框架,即 RichRAG。它包括一个子方面探索器,用于识别输入问题的潜在子方面;一个多方面检索器,用于建立与这些子方面相关的各种外部文档的候选库;以及一个生成式列表排序器,它是为最终生成器提供最有价值文档的关键模块。这些排名文档充分涵盖了查询的各个方面,并了解生成器的偏好,从而激励生成器为用户提供丰富而全面的回复。我们的排序器的训练包括一个有监督的微调阶段,以确保文档的基本覆盖范围,以及一个强化学习阶段,以将下游 LLM 的偏好与文档排序相一致。在两个公开可用的数据集上的实验结果证明,我们的框架能有效、高效地为用户提供全面、满意的回复。

12.Unified Active Retrieval for Retrieval Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.12534v3

摘要
在 “检索增强生成”(RAG)中,检索并不总是有用的,对每条指令都进行检索也不是最佳选择。因此,确定是否检索对 RAG 至关重要,这通常被称为主动检索。然而,现有的主动检索方法面临两个挑战:1.它们通常依赖于单一的标准,在处理各种类型的指令时举步维艰。2.2. 它们依赖于专业化和高度差异化的程序,因此将它们结合在一起会使 RAG 系统变得更加复杂,并导致更高的响应延迟。为了应对这些挑战,我们提出了统一主动检索(UAR)。UAR 包含四个正交标准,并将它们转化为即插即用的分类任务,从而以可忽略不计的额外推理成本实现多方面的检索时序判断。我们进一步介绍了统一主动检索标准(UAR-Criteria),旨在通过标准化程序处理各种主动检索情况。对四种具有代表性的用户指令进行的实验表明,UAR 在检索时机判断和下游任务性能方面明显优于现有研究,这表明了 UAR 的有效性及其对下游任务的帮助。

13.Retrieval-Augmented Generation for Generative Artificial Intelligence in Medicine

paper pdf:http://arxiv.org/pdf/2406.12449v1

摘要
生成式人工智能(AI)为包括医学在内的各个领域带来了革命性的创新。然而,它也有局限性。对此,检索增强生成(RAG)提供了一种潜在的解决方案,通过利用外部知识检索,使模型能够生成更准确的内容。随着生成式人工智能的快速发展,RAG 可以为这一变革性技术与医疗应用的连接铺平道路,并有望为医疗保健带来公平性、可靠性和个性化方面的创新。

14.PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

paper pdf:http://arxiv.org/pdf/2406.12430v1

摘要
在本文中,我们将研究如何利用 LLM 作为需要复杂数据分析的决策制定的解决方案。我们将决策质量保证定义为针对决策问题 Q Q Q、业务规则 R R R 和数据库 D D D 回答最佳决策 d b e s t d_{best} dbest 的任务。由于目前还没有可以检验决策质量保证的基准,因此我们提出了决策质量保证基准 DQA。它有两个场景,分别是定位和建筑,由两个视频游戏(Europa Universalis IV 和 Victoria 3)构建而成,其目标与决策质量保证几乎相同。为了有效解决决策 QA 问题,我们还提出了一种新的 RAG 技术,即迭代计划-检索增强生成(PlanRAG)。我们基于 PlanRAG 的 LM 第一步生成用于决策的计划,第二步由检索器生成用于数据分析的查询。所提出的方法在 "定位 "和 "建筑 "场景下的性能分别比最先进的迭代 RAG 方法高出 15.8% 和 7.4%。我们在 https://github.com/myeon9h/PlanRAG 上发布了我们的代码和基准测试。

15.Adaptive Selection for Homogeneous Tools: An Instantiation in the RAG Scenario

paper pdf:http://arxiv.org/pdf/2406.12429v1

摘要
目前有关工具学习的研究主要集中在从众多选择中选择最有效的工具,而往往忽略了成本效益这一人类解决问题的关键因素。在本文中,我们通过预测同类工具的性能以及完成给定任务所需的相关成本,来解决同类工具的选择问题。然后,我们以经济高效的方式将查询分配给最佳工具。实验结果表明,与强大的基线方法相比,我们的方法能以更低的成本实现更高的性能。

16.Debate as Optimization: Adaptive Conformal Prediction and Diverse Retrieval for Event Extraction

paper pdf:http://arxiv.org/pdf/2406.12197v1

摘要
我们提出了一种用于事件提取的多机器人辩论优化(DAO)系统,其主要目标是通过辩论迭代完善大型语言模型(LLM)的输出,而无需调整参数。在 DAO 中,我们引入了两个新模块:Diverse-RAG(DRAG)模块和 Adaptive Conformal Prediction(AdaCP)模块。DRAG 系统性地检索最适合辩论讨论的支持信息,而 AdaCP 则通过有效地拒绝不那么有希望的答案来提高事件提取的准确性和可靠性。实验结果表明,在事件检测和论据提取方面,监督方法与基于免调整 LLM 的方法之间的性能差距明显缩小,在 ACE05 上分别缩小了 18.1% 和 17.8%,在 CASIE 上分别缩小了 17.9% 和 15.2%。

17.TRACE the Evidence: Constructing Knowledge-Grounded Reasoning Chains for Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.11460v1

摘要
检索增强生成(RAG)为处理问题解答(QA)任务提供了一种有效的方法。然而,RAG 模型中检索器的不完善往往会导致检索到不相关的信息,这可能会引入噪声并降低性能,尤其是在处理需要多步推理的多跳问题时。为了提高 RAG 模型的多跳推理能力,我们提出了 TRACE。TRACE 构建了以知识为基础的推理链,即一系列逻辑相连的知识三元组,用于识别和整合检索文档中的支持性证据,从而回答问题。具体来说,TRACE 利用知识图谱生成器(KG Generator)从检索到的文档中创建知识图谱(KG),然后利用自回归推理链构造器(Autoregressive Reasoning Chain Constructor)构建推理链。在三个多跳 QA 数据集上的实验结果表明,与使用所有检索文档相比,TRACE 的平均性能提高了 14.03%。此外,实验结果表明,使用推理链而不是整个文档作为上下文往往足以正确回答问题。

18.Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities

paper pdf:http://arxiv.org/pdf/2406.11357v2

摘要
大型语言模型(LLM)受到其参数知识的限制,导致在知识密集型任务中出现幻觉。为了解决这个问题,检索增强生成(RAG)结合了外部文档块来扩展 LLM 的知识。此外,通过提取或总结来压缩文档块中的信息也能提高 LLM 的性能。然而,LLM 仍然难以发现和利用分散的关键信息,这个问题被称为 "中间丢失 "综合症。因此,我们通常需要重组内容,以便 LLM 识别关键信息。我们提出了 Refiner \textit{Refiner} Refiner,这是一种端到端提取-重组范式,在RAG的后检索过程中运行。 t e x t i t R e f i n e r textit{Refiner} textitRefiner利用单个解码器 LLM 自适应地逐字提取与查询相关的内容以及必要的上下文,并根据它们之间的相互联系对它们进行分段,从而突出信息的区别,并使下游 LLM 有效地与原始上下文保持一致。实验表明,经过训练的 Refiner \textit{Refiner} Refiner(具有7B个参数)在提高答案准确性方面对下游LLM有显著增益,并且在各种单跳和多跳QA任务中优于其他最先进的高级RAG和并发压缩方法。值得注意的是,与次佳方案相比, t e x t i t R e f i n e r textit{Refiner} textitRefiner 在多跳任务中实现了 80.5% 的标记减少和 1.6-7.0% 的改进幅度。 t e x t i t R e f i n e r textit{Refiner} textitRefiner是一种即插即用的解决方案,可以与RAG系统无缝集成,从而促进其在各种开源框架中的应用。

19.Enhancing Biomedical Knowledge Retrieval-Augmented Generation with Self-Rewarding Tree Search and Proximal Policy Optimization

paper pdf:http://arxiv.org/pdf/2406.11258v1

摘要
随着检索增强生成(RAG)技术的发展,大语言模型(LLM)在生物医学领域显示出巨大的潜力。然而,现有的检索增强方法在处理各种查询和文档时面临挑战,尤其是在医学知识查询方面,导致性能不尽人意。为了解决这些局限性,我们提出了一种基于 LLM 的即插即用型检索方法,即基于蒙特卡洛树搜索(MCTS)和自我奖励范式的自我奖励树搜索(SeRTS)。通过将 LLM 的推理能力与树搜索的有效性相结合,SeRTS 提高了为 RAG 检索高质量和信息量大的结果的零点性能。我们利用 SeRTS 收集到的轨迹作为反馈,对具有近端策略优化(PPO)目标的 LLM 进行了微调,从而进一步提高了检索性能。使用 GPT-3.5-Turbo 和 LLama2-7b 对 BioASQ-QA 数据集进行的对照实验表明,我们的方法显著提高了 BM25 检索器的性能,并在效率和可扩展性方面超越了自我反射的强大基线。此外,与自我反思相比,SeRTS 为 PPO 训练生成的反馈质量更高。我们提出的方法有效地使 LLMs 适应了文档检索任务,增强了它们在医学知识查询中为 RAG 检索高度相关文档的能力。这项工作在利用 LLMs 进行准确、全面的生物医学问题解答方面迈出了重要一步。

20.RAEmoLLM: Retrieval Augmented LLMs for Cross-Domain Misinformation Detection Using In-Context Learning based on Emotional Information

paper pdf:http://arxiv.org/pdf/2406.11093v1

摘要
错误信息普遍存在于教育、政治、卫生等各个领域,对社会造成了严重危害。然而,目前的跨领域错误信息检测方法依赖于耗时耗力的微调和复杂的模型结构。由于 LLM 的出色性能,许多研究将其用于错误信息检测。遗憾的是,这些研究只关注域内任务,并没有纳入重要的情感和情绪特征(我们统称为 “情感”)。在本文中,我们提出了 RAEmoLLM,这是首个检索增强型(RAG)LLMs 框架,利用基于情感信息的上下文学习来解决跨域错误信息检测问题。它通过应用情感感知 LLM 来构建情感嵌入检索数据库,从而实现这一目标。我们的检索模块利用该数据库获取源域样本,随后将其用于推理模块的上下文少量学习,以检测目标域的错误信息。我们在三个错误信息基准上评估了我们的框架。结果表明,在三个数据集上,RAEmoLLM 与零镜头方法相比取得了显著的改进,最高改进幅度分别为 20.69%、23.94% 和 39.11%。这项工作将在 https://github.com/lzw108/RAEmoLLM 上发布。

21.DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering

paper pdf:http://arxiv.org/pdf/2406.07348v3

摘要
检索增强生成(RAG)最近证明了大型语言模型(LLM)在问题解答(QA)等知识密集型任务中的性能。RAG 通过结合外部知识库来扩展查询上下文,从而提高答复的准确性。但是,为每次查询多次访问 LLM 的效率很低,而且通过一次查询检索所有相关文档也不可靠。我们发现,即使一些关键文档与查询之间的相关性很低,也有可能通过将部分文档与查询相结合来检索其余文档。为了挖掘相关性,我们提出了一个名为 "动态相关检索-增强生成(DR-RAG)"的两阶段检索框架,以提高文档检索的召回率和答案的准确性,同时保持效率。此外,一个紧凑型分类器被应用于两种不同的选择策略,以确定检索到的文档对回答查询的贡献,并检索出相对相关的文档。同时,DR-RAG 只调用一次 LLM,大大提高了实验效率。在多跳 QA 数据集上的实验结果表明,DR-RAG 可以显著提高答案的准确性,在 QA 系统中取得了新的进展。

22.Scholarly Question Answering using Large Language Models in the NFDI4DataScience Gateway

paper pdf:http://arxiv.org/pdf/2406.07257v1

摘要
本文介绍了一个基于 NFDI4DataScience Gateway 的学术问题解答(QA)系统,该系统采用了一种基于检索增强生成(RAG)的方法。NFDI4DS 网关作为一个基础框架,为使用联合搜索查询各种科学数据库提供了一个统一而直观的界面。基于 RAG 的学术质量保证由大型语言模型(LLM)提供支持,可促进与搜索结果的动态交互,增强过滤能力,并促进与网关搜索的对话。实验分析证明了网关和学术质量保证系统的有效性。

23.Evaluating the Retrieval Component in LLM-Based Question Answering Systems

paper pdf:http://arxiv.org/pdf/2406.06458v1

摘要
使用大型语言模型(LLM)的问题解答系统(QA)在很大程度上依赖于检索组件,以便为其提供特定领域的信息,降低产生不准确回答或幻觉的风险。虽然对检索器的评估可以追溯到信息检索的早期研究,但在基于 LLM 的聊天机器人中评估检索器的性能仍然是一项挑战。 本研究为评估基于检索增强生成(RAG)的聊天机器人中的检索器提出了一个简单明了的基准。我们的研究结果表明,这一评估框架能更好地反映检索器的性能,并与质量保证系统的整体性能更加一致。尽管精确度、召回率和 F1 分数等传统指标可能无法完全反映 LLM 的能力,因为尽管检索器不完美,它们也能做出准确的回应,但我们的方法考虑到了 LLM 忽略无关上下文的优势,以及它们在回应中可能出现的错误和幻觉。

24.Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue

paper pdf:http://arxiv.org/pdf/2406.06399v2

摘要
我们研究了大语言模型(LLM)在人机对话中生成回复任务中的局限性。文献中已经针对不同的对话类型(如开放域)提出了几种技术。然而,对这些技术的评估在基础 LLM、对话类型和评估指标方面都很有限。在这项工作中,我们广泛分析了应用于不同对话类型的不同 LLM 适应技术。我们选择了两个基础 LLM(Llama-2 和 Mistral)和四种对话类型(开放领域、知识基础、任务导向和问题解答)。我们在为每种对话类型选择的数据集上评估了上下文学习和微调技术的性能。我们评估了在检索增强生成(RAG)和黄金知识两种情况下结合外部知识进行基础生成的影响。我们对自动度量和人工评估协议采用了一致的评估和可解释性标准。我们的分析表明,在调整大型语言模型方面不存在通用的最佳技术,因为每种技术的有效性都取决于基础 LLM 和具体的对话类型。最后但并非最不重要的一点是,最佳适配技术的评估应包括人工评估,以避免从自动指标中得出错误的预期和结果。

25.Enhancing Long-Term Memory using Hierarchical Aggregate Tree for Retrieval Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.06124v1

摘要
大型语言模型的上下文容量有限,妨碍了长时间对话的推理。我们提出了层次聚合树(Hierarchical Aggregate Tree)记忆结构,通过条件树遍历递归聚合相关对话上下文。HAT 封装了来自子节点的信息,从而实现了广泛的覆盖范围和深度控制。我们将寻找最佳语境定义为最优树遍历。实验表明,与基线上下文相比,HAT 提高了对话连贯性和摘要质量,证明了该技术在多轮推理中的有效性,而不会出现指数级参数增长。这种记忆增强技术可使 LLM 的长篇对话更加连贯、有根有据。

26.The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs

paper pdf:http://arxiv.org/pdf/2406.10251v2

摘要
训练后量化降低了大型语言模型(LLM)的计算需求,但会削弱其某些能力。由于 LLM 的能力是随着规模的扩大而出现的,因此较小的 LLM 对量化更为敏感。在本文中,我们将探讨量化如何影响小型 LLM 执行检索增强生成(RAG)的能力,特别是在较长的语境中。我们之所以选择个性化进行评估,是因为它是使用 RAG 的一个具有挑战性的领域,因为它需要对多个文档进行长语境推理。我们在两个任务中比较了多个 7B 和 8B LLM 的原始 FP16 和量化 INT4 性能,同时逐步增加检索文档的数量,以测试量化模型在更长上下文中的表现。为了更好地理解检索的效果,我们在实验中评估了三种检索模型。我们的研究结果表明,如果 7B LLM 能很好地完成任务,那么量化并不会影响其性能和长语境推理能力。我们的结论是,量化后的较小 LLM 有可能利用 RAG。

27.RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.05794v2

摘要
检索增强生成(RAG)框架利用参数知识和外部知识的结合,在开放领域的问题解答任务中展示了最先进的性能。然而,当查询伴随着不相关的上下文时,RAG 框架的性能就会下降。在这项工作中,我们提出了 RE-RAG 框架,该框架引入了一个相关性估计器(RE),它不仅能像以前的 Rerankers 一样提供上下文之间的相对相关性,还能提供置信度,用于对给定上下文是否有助于回答给定问题进行分类。我们提出了一种弱监督方法,只需利用没有任何正确语境标签的问答数据来训练 RE。我们的研究表明,用小型生成器(sLM)训练 RE 不仅能改进与 RE 一起微调的 sLM,还能改进以前未引用的大型语言模型(LLM)。此外,我们还研究了利用 RE 所测量的置信度的新解码策略,例如选择让用户知道根据检索到的上下文回答问题是 “无法回答的”,或者选择依赖 LLM 的参数知识而不是无关上下文。

28.Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

paper pdf:http://arxiv.org/pdf/2406.05085v1

摘要
Retrieval Augmented Generation(RAG)通过在 LLM 上下文中检索文档来提供更准确、更相关的响应,从而增强大型语言模型(LLM)的能力。现有的 RAG 解决方案并不关注可能需要获取内容大相径庭的多个文档的查询。这种查询经常出现,但具有挑战性,因为这些文档的嵌入在嵌入空间中可能很远,很难检索到所有文档。本文介绍了多头 RAG(MRAG),这是一种新颖的方案,旨在通过一个简单而强大的想法来弥补这一不足:利用 Transformer 的多头注意力层(而不是解码器层)的激活作为获取多视角文档的关键。这样做的动机在于,不同的注意力可以学习捕捉不同的数据方面。利用相应的激活产生的嵌入代表了数据项和查询的各个方面,从而提高了复杂查询的检索准确性。我们提供了评估方法和指标、合成数据集以及实际应用案例来证明 MRAG 的有效性,结果表明其相关性比标准 RAG 基线提高了多达 20%。MRAG 可以与现有的 RAG 框架和基准工具(如 RAGAS)以及不同类别的数据存储无缝集成。

29.Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor

paper pdf:http://arxiv.org/pdf/2406.02266v1

摘要
尽管检索增强语言模型(RALMs)非常普遍,但如何将这些模型与检索机制无缝整合,以提高基于文档的任务的性能,仍然具有挑战性。虽然一些检索后处理的检索增强生成(RAG)方法已经取得了成功,但大多数方法仍然缺乏区分相关信息和无关信息的能力,从而导致生成输出中潜在的不一致性和精度降低,进而影响语言模型响应的真实性。为了解决这些局限性,本研究提出了一种新颖的两阶段一致性学习方法,用于压缩检索增强语言模型中的检索信息,以提高性能。通过纳入一致性学习,目的是生成与教师模型的预期语义表征保持一致和对齐的摘要,同时提高对原始检索文档的忠实度。所提出的方法在多个数据集上得到了实证验证,在问题解答任务的精确度和效率方面都有显著提高。该方法优于现有的基线方法,并展示了在检索增强生成框架内结合对比学习和一致性学习范式的协同效应。

30.UniOQA: A Unified Framework for Knowledge Graph Question Answering with Large Language Models

paper pdf:http://arxiv.org/pdf/2406.02110v1

摘要
OwnThink 是近年来推出的最广泛的中文开放域知识图谱。尽管此前已经有人尝试在 OwnThink 上进行问题解答(OQA),但现有研究在模型表示能力方面存在局限性,为进一步提高问题解答的整体准确性带来了挑战。在本文中,我们介绍了 UniOQA,这是一个整合了两个互补并行工作流的统一框架。与传统方法不同的是,UniOQA 利用大型语言模型(LLM)进行精确的问题解答,并将直接答案预测流程作为一种经济有效的补充。首先,为了增强表示能力,我们对 LLM 进行了微调,以便将问题翻译成赛弗尔查询语言(CQL),从而解决与语义理解受限和幻觉相关的问题。随后,我们引入了实体和关系替换算法,以确保生成的 CQL 的可执行性。同时,为了提高问题解答的整体准确性,我们进一步调整了知识图谱的检索增强生成(RAG)过程。最终,我们通过动态决策算法优化了答案的准确性。实验结果表明,UniOQA 将 SpCQL 的逻辑准确率显著提高到 21.2%,执行准确率提高到 54.9%,在这一基准上取得了新的先进成果。通过消融实验,我们深入研究了 UniOQA 的卓越表示能力,并量化了其性能突破。

31.Graph Neural Network Enhanced Retrieval for Question Answering of LLMs

paper pdf:http://arxiv.org/pdf/2406.06572v1

摘要
检索增强生成通过提供事实支持,彻底改变了大型语言模型(LLM)的输出。尽管如此,它仍难以捕捉到复杂推理问题所需的全部知识。现有的检索方法通常将参考文档划分为若干段落,孤立地处理这些段落。然而,这些段落往往是相互关联的,例如,有的段落是连续的,有的段落共享相同的关键词。因此,识别关联性对于改进检索过程至关重要。在本文中,我们提出了一种名为 GNN-Ret 的新型检索方法,该方法利用图神经网络(GNN),通过考虑段落之间的关联性来增强检索效果。具体来说,我们首先通过连接结构相关和关键词相关的段落来构建段落图。然后,利用图神经网络(GNN)来利用段落之间的关系,改进对支持段落的检索。此外,我们还利用名为 RGNN-Ret 的递归图神经网络 (RGNN) 扩展了我们的方法,以处理多跳推理问题。在每一步中,RGNN-Ret 都会整合前一步中的段落图,从而提高支持段落的检索能力。在基准数据集上进行的大量实验表明,与需要多次查询的强基线相比,GNN-Ret 在单次查询 LLMs 的情况下实现了更高的问题解答准确率,而 RGNN-Ret 则进一步提高了准确率,实现了最先进的性能,在 2WikiMQA 数据集上的准确率提高了 10.4%。

32.Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation

paper pdf:http://arxiv.org/pdf/2406.00456v1

摘要
整合来自不同参考数据源的信息是检索增强生成(RAG)系统面临的一大挑战,因为每个知识源都采用独特的数据结构并遵循不同的惯例。用一种固定策略从多个知识源检索通常会导致信息利用不足。为了缓解这一弊端,我们受混合专家(Mix-of-Expert)的启发,引入了混合粒度(Mix-of-Granularity,MoG),这是一种根据输入查询使用路由器动态确定知识数据库最佳粒度的方法。路由器通过新提出的采用软标签的损失函数进行有效训练。我们进一步将 MoG 扩展到混合粒度图(MoGG),在混合粒度图中,参考文档被预处理成图,从而能够从位置较远的块中检索相关信息。大量实验证明,MoG 和 MoGG 都能有效预测最佳粒度水平,从而显著提高 RAG 系统在下游任务中的性能。MoG 和 MoGG 的代码都将公开。

举报

相关推荐

0 条评论