大模型LLM | RAG从入门到精通（一）RAG背景介绍、RAG的挑战-CFANZ编程社区

一、RAG的背景介绍

随着ChatGPT的兴起，大语言模型再次走进人们的视野，其在NLP领域表现出的语言识别、理解以及推理能力令人惊叹。越来越多的行业开始探索大语言模型的应用，比如政务、医疗、交通、导购等行业。

通义系列、GPT系列、LLama系列等模型，在语言交互场景下表现十分抢眼。以Gemini为代表这类大模型甚至发展出了视觉和听觉，朝着智能体的方向演化。他们在多个指标上展现的能力甚至已经超过了人类。

然而，大型语言模型也存在诸多不足：

知识的局限性： 模型知识的广度获取严重依赖于训练数据集的广度，目前市面上大多数的大模型的训练集来源于网络公开数据集，对于一些内部数据、特定领域或高度专业化的知识，无从学习。
知识的滞后性： 模型知识的获取是通过使用训练数据集训练获取的，模型训练后产生的一些新知识，模型是无法学习的，而大模型训练成本极高，不可能经常为了弥补知识而进行模型训练。
幻觉问题： 所有的AI模型的底层原理都是基于数学概率，其模型输出实质上是一系列数值运算，大模型也不例外，所以它有时候会一本正经地胡说八道，尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的，因为它要求使用者自身具备相应领域的知识。
数据安全性： 对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。

为了解决纯参数化模型的局限，语言模型可以采取半参数化方法，将非参数化的语料库数据库与参数化模型相结合。这种方法被称为RAG（Retrieval-Augmented Generation）。

RAG通过检索现有的大量知识，结合强大的生成模型，为复杂的问答、文本摘要和生成任务带来了全新的解决方案。然而，尽管RAG有其独特的优势，但在实践过程中也遭遇了多个挑战。

在RAG模型中，检索阶段的输出直接影响到生成阶段的输入和最终的输出质量。如果RAG数据库中存在大量的错误信息并被检索，这可能引导模型走向错误的方向，即使优化检索阶段做大量的工作，可能对结果的影响也微乎其微。

为了实现高效的文档检索，通常需要将原始的文本数据转化为数值向量，这一过程又称为数据向量化。数据向量化的目的是将文本数据映射到一个低维的向量空间中，使得语义相似的文本在向量空间中的距离较近，而语义不相似的文本在向量空间中的距离较远。

然而，数据向量化也会导致一定程度的信息损失，因为文本数据的复杂性和多样性很难用有限的向量来完全表达。因此，数据向量化可能会忽略一些文本数据的细节和特征，从而影响文档检索的准确性。

在RAG中，语义搜索是指根据用户的问题，从文档集合中检索出与问题语义最相关的文档，这一过程又称为数据召回。语义搜索的难点在于如何理解用户的问题和文档的语义，以及如何衡量问题和文档之间的语义相似度。

目前，语义搜索的主流方法是基于数据向量化的结果，利用向量空间中的距离或相似度来度量语义相似度。

然而，这种方法也存在一些局限性，例如向量空间中的距离或相似度并不一定能反映真实的语义相似度，而且向量空间中的噪声和异常值也会干扰语义搜索的结果。因此，语义搜索的准确率也无法有100%的保证。