2026/4/17 1:12:50
网站建设
项目流程
建站推广网站排名,新公司名称核准在哪个网站,天津网站定制公司,个人网站设计分析RAG技术在2025年从狂热走向冷静#xff0c;基础设施稳定但创新放缓。GraphRAG和AgenticRAG面临高成本和稳定性挑战。作者提出RAG本质是上下文工程#xff0c;2026年将向Context Platform发展#xff0c;与长上下文技术深度融合。企业应避免盲目追求新技术#…RAG技术在2025年从狂热走向冷静基础设施稳定但创新放缓。GraphRAG和AgenticRAG面临高成本和稳定性挑战。作者提出RAG本质是上下文工程2026年将向Context Platform发展与长上下文技术深度融合。企业应避免盲目追求新技术重视数据质量和产品设计垂直领域RAG将迎来发展机遇。简单有效的朴素RAG方案在80%场景下仍是最优选择。2025年RAG已死2026年做上下文工程写在前面2025年即将过去,作为一名深耕RAG技术的算法工程师,我想和大家聊聊这一年RAG技术的真实状态——不是那些震惊体标题下的RAG已死,也不是各种PPT里的宏大叙事,而是我在实际落地中观察到的技术演进、踩过的坑,以及对2026年的真实判断。这篇文章,既是对过去一年的复盘,也是给自己和同行的一些提醒:技术本身没有对错,关键在于是否用对了地方。下期分享 7 种必须了解的企业落地RAG 架构一、2025年RAG:从狂热到冷静1.1 数据会说话先看一组数据:但论文数量的爆发,并不等于技术的成熟。事实上,2025年RAG领域呈现出一种成熟与分化并存的状态——基础设施趋于稳定,技术创新却开始放缓。1.2 开源框架的大浪淘沙年初的时候,GitHub上RAG相关的开源项目有35个之多,到年末,真正活跃的不超过10个,而被广泛使用的只有3-5个。这种收敛形成了一个有趣的三层金字塔:底层(面向开发者): LangChain、AutoGen、等底层框架,灵活但学习成本高中层(面向工程师): RAGFlow、MaxKB等,平衡了易用性和可定制性顶层(面向业务): Dify、Coze等低代码平台,上手快但容易遇到性能瓶颈我的观察是:大部分团队选择了Dify/Coze,但80%的团队会在3个月内遇到性能瓶颈。为什么?因为RAG的优化高度依赖具体业务场景,而这些平台的抽象层限制了你深入优化的能力。1.3 一个经典的问题:二开还是重写?这是我今年被问得最多的问题。我的答案很简单:如果你只是做demo或简单场景,用开源框架。如果你要做生产级系统,认真考虑从头开发核心模块。原因有三:RAG本质上是模块化的- 文档解析、分块、检索、重排、生成,每个模块都可以独立优化业务差异巨大- 金融文档、法律合同、技术手册,每种场景的最优方案完全不同LLM代码能力飞跃- 2025年,Claude 4.5、GPT-5等模型已经能生成很高质量的RAG代码,从头开发的成本大幅降低当然,这需要你对RAG的原理有深入理解。但如果你打算长期做这个方向,这个投入是值得的。二、技术演进:从暴力堆叠到理性回归2.1 技术发展的三个阶段回顾RAG的发展,可以清晰地划分为三个阶段:第一阶段(2020-2022):基础RAG时代最简单的检索生成流水线:向量检索Top-K文档,拼接后扔给LLM。问题很明显:检索和生成完全解耦,检索到的内容不一定是LLM真正需要的。第二阶段(2023-2024):增强RAG时代各种tricks层出不穷:Query改写、HyDE、混合检索、重排序、迭代检索…这个阶段产生了LangChain、LlamaIndex等框架,降低了开发门槛。第三阶段(2024-2025):前沿探索期出现了四大方向:模块化RAG- 乐高式组装各种组件GraphRAG- 引入图结构建立实体关系AgenticRAG- 让LLM自主决策检索策略多模态RAG- 处理图像、视频等非文本数据2.2 GraphRAG:高开低走的典型案例今年最热的概念之一就是GraphRAG。微软发布后,各种论文、开源项目井喷。但用下来发现,ROI真的不高。为什么GraphRAG没火起来?Token消耗巨大- 实体抽取、关系建立、社区摘要,Token成本是普通RAG的5-10倍图谱质量堪忧- 自动抽取的实体关系充满噪声,远不如人工构建的知识图谱维护成本高- 文档一更新,图谱就要重建,这个成本在生产环境难以接受我的判断:GraphRAG适合那些需要跨文档、多跳推理的复杂场景,但对于80%的常规问答,朴素RAG好的文档解析就够了。不过GraphRAG的思想是对的——预先建立关联,降低检索时的认知负担。只是当前的实现方式太粗暴了。2.3 AgenticRAG:理想很丰满,现实很骨感AgenticRAG的思路是:让LLM自己决策什么时候检索、检索什么、如何利用检索结果。听起来很美好,但有两个大问题:Token成本- 每次决策都要调用LLM,成本是传统RAG的3-5倍稳定性- LLM的决策能力还不够可靠,经常做出错误判断我的建议:对于复杂任务,Agentic思路是对的,但可以用简化版——预定义几种检索策略,用轻量级分类器选择,而不是每次都让LLM深度思考。2.4 长上下文会取代RAG吗?这是今年另一个热门争论。Claude 3支持200K上下文,GPT-4 Turbo支持128K,很多人说RAG要死了。我的答案:长上下文和RAG不是替代关系,而是互补。长上下文的问题:成本- 处理100K上下文的成本是RAG的20-100倍Lost in the Middle- 信息太多,模型注意力会分散,答案质量反而下降实时性- 每次都处理全量文档,延迟不可接受最佳实践:文档1000页 深度理解场景 → 长上下文文档10000页 精准检索场景 → RAG混合场景 → RAG初筛 长上下文精读三、从RAG到Context Engine:定位的转变3.1 2025年最重要的认知升级如果说2025年RAG领域有什么最重要的认知升级,那就是:**RAG的本质不是检索增强生成,而是上下文工程**。这个认知的转变,源于AI Agent的兴起。3.2 Agent需要的三类上下文一个能干活的Agent,需要精心组装三类上下文:1. 领域知识(Knowledge)企业内部文档、产品手册、历史案例这就是传统RAG的强项2. 工具描述(Tools)API文档、函数说明、调用示例当工具数量100个,如何选择成为大问题3. 交互历史(Memory)对话历史、用户偏好、任务状态本质也是一种检索问题关键洞察:这三类数据的管理,本质上都是检索问题。RAG的技术栈(向量索引、混合检索、重排序)可以完美复用。3.3 MCP只是开始,真正的挑战是检索2024年底Anthropic推出MCP(Model Context Protocol),今年很多人在喊MCP凉了。其实是搞错了对象。MCP解决的是如何调用的连通性问题,但没有解决调用哪个的决策问题。当企业有500个API可以调用时,你不可能把500个工具的描述都塞进prompt。这时候你需要什么?工具检索(Tool Retrieval)[10]。根据当前任务,动态检索最相关的3-5个工具,这才是实用的方案。3.4 Memory就是特殊的RAG今年Memory也火了一把,很多人把它和RAG对立起来。但本质上:Memory就是对会话历史的RAG。上下文工程概念图数据来源不同- RAG处理静态文档,Memory处理动态对话技术栈相同- 都是存储、索引、检索目标互补- 一个提供领域知识,一个提供个性化上下文所以不要纠结用RAG还是Memory,统一到Context Engine的框架下思考。3.5 Context Platform:下一个基础设施Theory Ventures的投资人早在2024年就提出了Context Platform的概念[13][14][15]。核心思想:上下文的创建、管理、交付应该是一个平台化的能力,而不是每个应用各自实现。这个判断我深度认同。2026年,谁能把Context做成平台级产品,谁就占据了AI应用的核心基础设施。四、多模态RAG:雷声大,雨点小4.1 为什么多模态RAG还没起来?我在去年的总结中预测多模态RAG会在2025年爆发,但现实是:雷声大,雨点小。理论上,多模态RAG很有价值:医疗文献中的图表设计文档中的示意图视频中的关键帧工程上,有两大拦路虎:Token爆炸- 用ColPali处理一页PDF,生成1024个token,每个token 128维,一页就要500KB存储。百万页文档库需要TB级索引。检索效果- 纯文本向量检索已经很成熟,但图文混合检索的效果还不够稳定。4.2 两条可行的路径要突破这个瓶颈,有两条路:路径1:量化压缩把float32降到int4甚至二值化,存储压缩32倍关键是要训练对量化鲁棒的embedding模型路径2:Token剪枝从1024个token降到128个用attention机制自动选择最重要的token4.3 我的判断2026年多模态RAG会有突破,但真正大规模应用要到2027年。原因:基础设施(向量数据库、检索引擎)对张量的支持还在完善专门为检索优化的多模态模型还在研发阶段成本需要继续降低但方向是对的,值得持续关注。五、真实案例:企业怎么用RAG?5.1 我看到的失败案例今年也看到不少失败案例,典型的有三类:类型1:过度追求新技术上来就要GraphRAG,结果成本控制不住建议:先把朴素RAG做到80分,再考虑升级类型2:数据质量差文档解析错误连篇,检索再准也没用建议:投入50%精力在数据清洗和解析上类型3:缺少产品设计把RAG当黑盒,没有做用户反馈闭环建议:像做产品一样做RAG,持续迭代六、当前的五大挑战6.1 成本:大多数团队的第一痛点现状:向量数据库存储成本高LLM调用成本高(特别是多轮对话)多模态更是成本杀手可行的优化:增量索引,不要每次全量重建冷热数据分层存储小模型做初筛,大模型做精排缓存高频query的结果6.2 实时性:金融/安防场景的硬需求问题:检索生成通常需要2-5秒某些场景需要毫秒级响应解决方案:预检索缓存流式生成(先给部分答案)GPU加速向量检索HNSW等近似检索算法6.3 语义鸿沟:多模态的老大难问题:用户问悲伤的场景,系统怎么从视频里找?文本和图像的语义对齐很难解决方案:用VLM(如GPT-4V)做细粒度理解离线时给视觉内容打丰富的标签收集反馈,持续优化匹配模型6.4 幻觉:信任度的致命伤问题:即使检索到正确文档,LLM也可能胡说八道用户一旦发现错误,信任度归零解决方案:强制引用来源(带文档位置和页码)用小模型验证答案和文档的一致性训练时用检索文档做监督信号6.5 隐私:企业的红线问题:敏感数据不能上云需要细粒度权限控制解决方案:本地化部署数据脱敏全程加密完整的审计日志七、2026年:我看到的六大趋势7.1 智能体RAG成为标配判断依据:LangChain已经all in Agentic复杂任务确实需要多步规划但要注意:不是所有场景都需要Agentic简单场景用规则轻量级LLM就够了7.2 长上下文和RAG深度融合不是替代,而是协同:RAG做粗筛(从10万文档筛到10篇)长上下文做精读(深度理解这10篇)7.3 垂直领域RAG涌现通用RAG的问题:无法处理领域特有的逻辑评估指标不适配具体场景垂直化的价值:医疗RAG:集成医学知识图谱,理解诊断逻辑法律RAG:内置法条检索和案例分析金融RAG:实时接入市场数据**我的建议:**如果你的领域文档有明显特征(如法律条文的层级结构),不要用通用方案,定制开发ROI更高。7.4 端到端训练进入工程实践现状:检索器和生成器分别训练,可能目标不一致RAG 2.0的思路:联合训练,直接优化最终答案质量检索器学习生成器喜欢什么样的文档2026年的突破点:更多开源的端到端训练框架小数据量下也能有效训练的方法7.5 Context Platform成为基础设施我最看好的方向:不是某个RAG框架,而是统一的上下文管理平台就像数据仓库之于BI,Context Platform之于AI应用谁有机会:RAGFlow这类深耕底层引擎的云厂商(如AWS、阿里云)推的托管服务新兴的专注Context的创业公司7.6 标准化和互操作性提升当前的痛点:向量数据库格式不兼容Embedding模型互相替换困难评估指标各说各话2026年的进展:OpenAI、Anthropic等大厂会推动标准更多benchmark的出现框架间的互操作性增强八、给开发者的七条建议建议1:拥抱模块化不要把RAG当黑盒,理解每个模块的作用:Parser(文档解析)Chunker(分块策略)Retriever(检索器)Reranker(重排序)Generator(生成器)这样你才能针对性优化。建议2:从简单开始反对一上来就上GraphRAG/AgenticRAG的冲动。正确的路径:基础RAG(Faiss Llama 3.1)加入重排序(BGE Reranker)优化chunking策略根据场景决定是否升级建议3:重视数据质量好的RAG 30%技术 70%数据时间分配建议:50%: 文档清洗和解析30%: 评估和调优20%: 技术选型和开发建议4:建立评估体系不只是demo能跑就行,要有系统的评估:检索层面:PrecisionK / RecallKMRR(Mean Reciprocal Rank)生成层面:答案准确性(人工评估)引用质量(是否引用了正确文档)幻觉率业务层面:响应时间用户满意度人工介入率建议5:做好监控和迭代RAG不是一次性工程,是持续迭代的系统。必须的监控:每个query的检索结果生成答案的质量评分用户反馈(点赞/点踩)异常case(答非所问、拒答、幻觉)每周review一次bad case,找规律,针对性优化。建议6:不要忽视产品设计技术只是手段,用户体验才是目的。产品层面要考虑:什么情况下触发检索?如何展示来源文档?答案不确定时如何处理?如何收集用户反馈?我看到的最好的RAG产品,都在这些细节上下了功夫。建议7:安全和合规前置不要等上线了再考虑安全问题。设计阶段就要明确:哪些数据可以索引?如何做权限控制?如何审计访问记录?如何应对数据泄露?对于金融、医疗等强监管行业,这些是必答题。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】