2026/5/18 22:40:48
网站建设
项目流程
百度刷自己网站的关键词,中信建设有限责任公司钟宁,装潢设计什么意思,旅游网站模板免费下载RankCoT是一种创新的知识精炼方法#xff0c;通过在思维链生成过程中融入排序信号#xff0c;提升RAG系统性能。该方法让模型为每个检索文档生成独立思维链#xff0c;利用直接偏好优化(DPO)训练模型选择最佳思维链#xff0c;并引入自反思机制进一步精炼。实验表明#x…RankCoT是一种创新的知识精炼方法通过在思维链生成过程中融入排序信号提升RAG系统性能。该方法让模型为每个检索文档生成独立思维链利用直接偏好优化(DPO)训练模型选择最佳思维链并引入自反思机制进一步精炼。实验表明RankCoT不仅显著提高了RAG系统的准确率还能有效过滤噪声干扰同时缩短输入上下文长度实现了又好又快的双重目标。RankCoT 通过在思维链里巧妙地融入排序Rerank信号先让模型写出多个候选 CoT再挑出最好的那个最终浓缩成一份高质量的知识摘要有效提升了 RAG 系统的准确率、减少了噪声干扰还缩短了最终喂给模型的上下文长度。摘要检索增强生成RAG通过引入外部知识来提升大语言模型LLM的表现。然而LLM 在有效利用检索文档中的知识时仍面临挑战常被无关或噪声信息误导。为此我们提出 RankCoT——一种知识精炼方法在生成基于 CoT 的摘要时融入重排序信号从而根据给定查询与全部检索文档对知识进行提纯。训练阶段RankCoT 先提示 LLM 针对查询和单篇文档分别生成多条 Chain-of-ThoughtCoT候选随后微调 LLM使其依据全部检索文档直接复现最佳 CoT迫使模型在生成 CoT 式摘要的过程中自动过滤无关文档。此外RankCoT 引入自反思机制对 CoT 输出再做精炼得到更高质量的训练数据。实验表明RankCoT 效果显著优于其他知识精炼模型。进一步分析发现RankCoT 可提供更简短却有效的精炼结果使生成器输出更准确的答案。论文标题: RankCoT: Refining Knowledge for Retrieval-Augmented Generation through Ranking Chain-of-Thoughts作者: Mingyan Wu, Zhenghao Liu, Yukun Yan发表年份: 2025原文链接: https://arxiv.org/abs/2502.17888代码链接: https://github.com/NEUIR/RankCoT关键词: RAGKnowledge RefinementCoTDPOSelf-Reflection研究背景RAG 的“成长的烦恼”RAG 技术通过引入外部知识库极大地缓解了 LLM 的“幻觉”问题让模型能接触到最新、最准确的信息。标准的 RAG 流程通常是“检索-阅读-回答”。但这里有个痛点检索器从海量文档里捞回来的信息质量参差不齐。有的文档虽然相关但包含大量噪声有的文档压根就不对题。如果把这些乱七八糟的信息一股脑儿全塞给 LLM模型很容易被带偏导致“垃圾进垃圾出”Garbage In, Garbage Out。为了解决这个问题社区提出了两种主流的知识精炼Knowledge Refinement思路重新排序Rerank在检索后增加一个排序环节评估每个文档与问题的相关性筛掉不相关的留下最匹配的。但这治标不治本因为留下的“好文档”里可能依然有大量与问题无关的段落。摘要Summary让 LLM 直接把所有检索到的文档读一遍然后写个摘要。这能有效压缩信息但问题是摘要过程可能会丢失关键细节或者把不相关文档里的噪声也“揉”了进来。有没有一种方法能兼具 Rerank 的“筛选”能力和 Summary 的“浓缩”能力呢RankCoT 正是为此而来。方法总览RankCoT 如何“优中选优”RankCoT 的核心思想可以用一个生活中的例子来理解。想象一下你要回答一个复杂问题比如“托马斯·杰斐逊的家在哪里” 你找了一堆资料检索文档有的说他家在蒙蒂塞洛有的说他出生在沙德维尔。RankCoT 的做法是独立思考形成多个“思维链”它不会把所有资料混在一起读而是针对每份资料独立生成一个“思考路径”也就是一个思维链Chain-of-Thought, CoT。比如基于资料一它会想“资料一提到了蒙蒂塞洛这似乎是他的故居。”基于资料二它又会想“资料二说他出生在沙德维尔这是他早年的家。”内部排序选出最佳“草稿”生成一堆这样的 CoT “草稿”后RankCoT 会在内部进行一次“PK”根据所有检索到的信息评估哪个 CoT 最靠谱、最全面。在这个例子里包含“蒙蒂塞洛”的 CoT 显然是更准确的答案。精炼输出生成最终答案最后模型会基于这个最佳 CoT生成一份精炼、准确的知识摘要然后用这份摘要去回答最初的问题。整个过程如下图所示模型首先为每个检索到的文档生成候选 CoT然后通过排序和总结选出最优的 CoT1并基于它生成最终答案。RankCoT 流程图RankCoT 的训练和推理分为两个阶段。在训练阶段它通过一个巧妙的自反思Self-Reflection和直接偏好优化DPO过程教会模型如何辨别“好”的 CoT 和“坏”的 CoT。在推理阶段训练好的模型就能直接上岗对新问题进行高效的知识精炼。RankCoT 的训练与推理框架图。关键结论RankCoT 带来了什么论文的核心贡献可以总结为三点•提出了一种创新的知识精炼方法 RankCoT它将重排Rerank信号无缝整合进思维链CoT的生成过程中让 RAG 系统能更有效地从嘈杂的检索结果中提炼出高价值信息。•引入了自反思Self-Reflection机制和直接偏好优化DPO训练策略。通过让模型自我审视和修正生成的 CoT并利用正负样本对进行对比学习RankCoT 能够生成质量更高、更符合任务需求的数据从而提升了模型性能。•在多个公开数据集上取得了显著效果。实验证明相比于传统的 RAG 和其他知识精炼方法如 Rerank、SummaryRankCoT 不仅在准确率上全面领先还能在大幅缩短输入上下文长度的同时保持甚至提升答案质量实现了“又好又快”的双重目标。深度拆解深入 RankCoT 的技术细节3.1 知识精炼范式Rerank、Summary 与 RankCoT在深入 RankCoT 之前我们先形式化地看看几种知识精炼范式•Rerank对每个检索到的文档d_i用 LLM 判断其与问题q的相关性保留相关的丢弃不相关的。优点是能过滤掉整个文档层面的噪声缺点是无法处理文档内部的噪声。•Summary将所有文档D一次性输入 LLM让其生成一个摘要y_KR。优点是能极大压缩上下文缺点是容易丢失细节或混入噪声。•RankCoT同样是将所有文档D输入但指令是生成一个 CoT 风格的摘要y_KR。与普通摘要不同RankCoT 在生成这个 CoT 的过程中内置了对不同来源信息的“权衡”与“排序”这是通过接下来要讲的特殊训练方式实现的。3.2.1 在 CoT 生成里建模 Rerank 信号RankCoT 最精妙的设计在于它如何让模型在生成一个“融合后”的 CoT 时还能保留对“单个来源”好坏的判断力。这是通过直接偏好优化DPO实现的。生成候选 CoT首先对于一个问题和它检索到的 N 个文档{d1, d2, ..., dN}模型会分别基于每个文档di单独生成一个 CoT得到一个候选集Y_CoT {y_CoT(d1), ..., y_CoT(dN)}。构造正负样本接下来通过一个简单的规则来打标签如果一个 CoTy_CoT包含了问题的标准答案Ground Truth它就被认为是正样本 (Chosen)y_CoT反之就是负样本 (Rejected)y-_CoT。DPO 训练有了正负样本对就可以用 DPO 来训练模型了。DPO 的目标是让模型在面对原始问题q和所有文档D时给正样本y_CoT打出比负样本y-_CoT更高的生成概率。简单来说就是告诉模型“嘿当所有信息都在你面前时你应该更倾向于生成像y_CoT这样的思考过程而不是y-_CoT那样的。”通过这种方式模型在学习生成最终的 CoT 摘要时实际上也在隐式地学习一个排序任务它必须判断哪些源文档di导出的 CoT 更有价值即y_CoT并在最终输出中更多地体现这些有价值的信息。这就实现了在 CoT 生成中嵌入 Rerank 信号的目的。3.2.2 自反Self-Reflection进一步精炼 CoT直接用模型生成的 CoT 做训练数据还不够完美因为这些 CoT 可能包含一些“模板化”的、无意义的口头禅比如“根据文档…”、“我的思考过程是…”。为了得到更纯净、更高质量的训练数据RankCoT 引入了自反思机制。这个过程分两步初始 CoT 生成模型先像之前一样为每个文档生成一个初步的 CoT~y_CoT(di)。自我修正然后模型会扮演“审稿人”的角色接收指令“请根据下面的‘思考过程’来回答问题。” 输入就是刚刚生成的~y_CoT(di)。模型会对这个初步的 CoT 进行二次加工提炼出更核心、更直接的答案y_CoT(di)。这个“自己写、自己改”的过程能有效去除口头禅让 CoT 的内容更聚焦于回答问题本身。用这些经过“反思”和“提纯”的 CoT 来构造 DPO 的训练数据能让模型学得更好避免过拟合那些无用的表达模式。实现细节•模型与训练论文主要使用Llama3-8B-Instruct作为基础模型采用 LoRA (Low-Rank Adaptation) 进行高效微调。•数据构造在训练时为每个问题检索 10 个文档独立生成 CoT 并进行自反思然后筛选出有效的正负样本对用于 DPO 训练。推理时则使用 5 个文档。•数据集训练数据涵盖了开放域问答Open-Domain QA和推理Reasoning两大类任务保证了模型的泛化能力。训练、开发与测试集的数据统计。实验结果全方位吊打论文进行了一系列详尽的实验从不同维度验证了 RankCoT 的有效性。整体表现稳居第一在与多种知识精炼方法的对比中RankCoT 在 Llama3-8B 模型上平均分达到了44.64比不做任何精炼的 Vanilla RAG42.18高出 2.5 个百分点也显著优于 Rerank42.81、Summary41.32和 CoT41.17等方法。更重要的是将 RankCoT 应用到不同大小的模型如 MiniCPM3-4B 和 Qwen2.5-14B上性能提升同样显著证明了其良好的泛化能力。不同知识精炼模型的综合性能对比消融实验DPO 与自反思缺一不可为了探究是哪个部分在起作用论文做了消融研究。结果显示•DPO 训练至关重要相比 SFT使用 DPO 训练的 RankCoT 性能更强平均分 54.97 vs 51.15 for CoT SFT。这说明让模型在正负样本之间做“比较和选择”比单纯“模仿”正确答案更有效。•自反思机制效果显著去掉自反思w/o Reflect后RankCoT 的性能出现明显下滑54.97 - 53.70证明了高质量训练数据的价值。消融研究对比不同训练策略与是否使用自反思机制场景拆分三大场景全面胜出论文还将测试集分为三种情况Has-Answer检索的文档包含答案。RankCoT 在此场景下表现最好说明它最擅长从正确的文档中“榨取”信息。Miss-Answer检索的文档不含答案全是噪声。所有 RAG 方法性能都会下降但 RankCoT 下降得最少证明其抗噪声能力最强。Internal Knowledge评估模型在外部知识与内部记忆冲突时的表现。RankCoT 同样领先说明它能更好地协调外部信息和模型的固有知识。在三种不同场景下的 RAG 性能评估质量与长度分析“又好又短”最后论文分析了 RankCoT 生成的知识摘要本身的特点。•质量Quality•相关性RankCoT 生成的摘要与原始问题的文本相似度最高图 3a说明其内容最聚焦。•答案命中率它的摘要包含标准答案的命中率非常高图 3b仅次于只做筛选的 Rerank但远超普通 Summary 方法说明它在压缩信息的同时极好地保留了关键答案。精炼知识的质量分析•长度Length• RankCoT 生成的知识摘要平均长度最短图 4a这意味着更少的 Token 消耗和更快的后续生成速度。• 相比原始模型RankCoT 能将输入长度压缩超过 44%图 4bDPO 训练实现了真正的“降本增效”。精炼知识的长度分析综合来看RankCoT 生成的知识摘要做到了“内容相关、答案准确、篇幅简短”堪称 RAG 知识精炼的“三好学生”。未来工作尽管 RankCoT 表现出色论文也指出了其局限性和未来方向•对 LLM 能力的依赖RankCoT 的效果依然受限于基础 LLM 的能力特别是生成高质量正负样本对的能力。未来可以探索更鲁棒的偏好数据构造方法。•模型规模的对齐当知识精炼模型RankCoT与最终的生成模型规模差距过大时提升可能会减弱。研究如何更好地在不同规模的模型间进行知识对齐是一个值得探索的方向。•更复杂的推理链目前 RankCoT 主要处理单步的“筛选-综合”过程未来可以将其扩展到更复杂的多步推理任务中让模型在每一步都能动态地进行知识的“精炼”和“迭代”。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】