2026/2/11 23:53:57
网站建设
项目流程
专业长春网站建设哪家好,2345浏览器主页网址,手机网站设计费用,一键抠图永久免费在上一篇文章中#xff0c;我们聊了从提示词工程到上下文工程的发展过程#xff0c;看到了大语言模型交互方式的逐步演化。但问题来了#xff1a;为什么我们还需要“上下文工程”#xff1f; 模型不是已经越来越强了吗#xff1f;上下文窗口不是已经越来越大了吗#xff…在上一篇文章中我们聊了从提示词工程到上下文工程的发展过程看到了大语言模型交互方式的逐步演化。但问题来了为什么我们还需要“上下文工程” 模型不是已经越来越强了吗上下文窗口不是已经越来越大了吗其实正是这些“更大”“更强”的背后隐藏着新的挑战。本篇文章我们就来揭开“上下文工程”的必要性。以及如果没有它会发生什么。构建现代上下文的结构化方式随着提示词技术的不断演进如今的上下文内容已经越来越“拥挤”包括指令信息instructions、Few-Shot 示例、检索到的文档内容还有工具定义等多种类型的信息。如果我们只是把这些内容简单地拼接成一大段文字问题就来了——模型很容易“看错重点”可能会把一段检索文档误认为是指令或者误把邮件里提到的函数名当作一个实际要调用的工具。为了解决这种混乱我们需要在上下文中引入清晰的结构。 一种非常有效的做法是使用类似 XML 的标签来标记每一类内容。比如将不同的信息分别包裹在documents、tools、instruction等标签中这样就能明确告诉模型每一块信息的用途是什么。下面是一个示例展示了如何通过结构化的方式让模型理解并调用一个名为get_weather的天气查询工具通过这种结构化提示不仅提升了上下文的可读性也帮助模型更准确地理解不同内容的语义角色从而做出更符合预期的响应。tools tool_definition { name: get_weather, description: 获取指定地点的当前天气, parameters: { type: object, properties: { location: { type: string, description: 城市和州名例如San Francisco, CA }, unit: { type: string, enum: [celsius, fahrenheit] } }, required: [location] } } /tool_definition/toolsinstruction请回答用户的问题。你可以使用已有工具。/instructionquery旧金山现在的天气怎么样/query大语言模型LLM本身并不会直接执行函数。它所做的是生成一段结构化的函数调用请求例如下面这样的格式{ tool_name: get_weather, parameters: { location: San Francisco, CA, unit: fahrenheit }}真正执行这个函数的是你应用程序中的代码。它需要负责解析这段 JSON调用对应的函数并将执行结果再传回模型供模型生成最终的回答。也就是说模型负责“决定调用什么”而你的程序负责“真正去做”。这种分工方式让模型可以通过自然语言驱动工具执行从而实现更强的动态交互能力。—点击上方名片关注AI拍档—上下文工程存在的意义超长上下文的隐藏代价如今的大语言模型动辄拥有百万级 token 的上下文窗口这让人很容易产生一种幻想只要把整个数据库一股脑地喂给模型它就能给出完美的答案。但这种“填鸭式上下文”context stuffing的方法实际上隐藏着不少代价和性能陷阱。一味地扩大上下文不仅不能保证效果反而可能让模型的表现变得更不稳定、更低效。想要构建真正聪明、可靠的系统靠“堆量”是远远不够的。更重要的是如何聪明地构建、筛选和组织上下文。上下文腐烂Context Rot当长上下文让模型“失灵”在实际部署大语言模型时一个令人担忧的新现象正在浮现——“上下文腐烂Context Rot”。虽然现在很多模型宣称支持 10 万、甚至 100 万 token 的超长上下文窗口但研究表明模型的性能在输入仅达到几万 token 时就开始明显下降远未达到宣传中的理论上限。Chroma 在 2025 年发布的一项综合研究对市面上 18 款主流大模型进行了评估涵盖 GPT-4.1、Claude 4、Gemini 2.5 和 Qwen3 等热门模型测试内容包括多种长上下文任务。结果很明确模型处理长上下文的能力并不均衡。随着输入长度增加即便是“重复词语”这类看似简单的任务模型的输出也会越来越不稳定。这意味着上下文越长模型越“健忘”不仅准确率下降还可能出现误解、遗漏、甚至“编造”内容的情况。 在设计长上下文交互系统时不能盲目依赖模型的“token 容量”更应关注上下文质量与结构化设计。该研究揭示了关于“上下文腐烂Context Rot”的一些关键发现1.性能下降并不均匀模型在长上下文中不是逐渐“优雅地衰减”而是呈现出各种不稳定行为 有的模型开始生成随机内容有的则直接拒绝执行任务还有很多模型在信心满满地输出却给出错误答案。2.不同模型家族表现差异明显OpenAI 的 GPT 系列表现最不稳定容易出现“飘忽输出”或幻觉内容Claude 系列则相对保守在不确定时宁愿选择不回答也不会乱编答案。 这种差异提示我们长上下文任务不仅受上下文长度影响也强烈依赖模型架构本身的特性。3.简单任务也变得不可靠即使是像“复制一段重复文本并在中间插入一个不同单词”这样简单的任务 一旦输入超过 10,000 个词多数模型就开始“迷失方向”——要么输出重复内容、要么输出中断、甚至胡乱生成。这些发现清晰地表明 上下文窗口的长度并不等于可用的有效信息容量。 与其盲目塞入更多上下文不如构建更聪明、更结构化的上下文管理策略。这正是“上下文工程”所要解决的问题核心之一。图表标题《Context Rot长上下文中的性能衰减曲线》这张图直观展示了大语言模型在面对超长上下文时性能是如何衰减的。横轴X 轴表示上下文长度单位千个 token标记有 10k、50k、100k 和 500k纵轴Y 轴表示模型的可靠性与准确性从“低”到“高”。图中有一条代表真实模型表现的动态折线绿色部分Stable Zone稳定区在 20k token 以内折线平稳、高位颜色为绿色代表模型性能表现稳定、准确率高。黄色部分Erratic Zone波动区超过 20k 后折线开始变得锯齿状逐渐下滑颜色从绿色转为黄色再变为橙色表示模型开始出现不可预测的行为例如输出内容混乱拒绝执行任务自信地生成错误回答图中某一处陡然下跌的位置被特别标注为“Catastrophic Failure灾难性失败如胡乱回答或拒答”红色部分 High Unreliability Zone高度不可靠区当上下文进一步拉长至 100k、500k 时折线彻底跌入低位颜色变为红色且波动剧烈表示模型性能已严重下降完全无法依赖。这张图发出的信号非常明确 模型的“上下文极限”远不如它们声称的那么可用。 即使支持百万 token 的窗口也不能盲目往里塞——性能早在“极限值”之前就已经开始失控。如果我们希望构建更稳定、更智能的大模型系统必须关注的不只是“上下文能装多少”而是如何科学地组织上下文让每一个 token 都有意义。这正是“上下文工程”存在的真正理由。这类研究建立在此前的一些重要成果之上其中包括奠定基础的那篇论文《When Transformers Know but Don’t Tell》。该研究发现大语言模型常常在其隐藏表示中准确编码了目标信息的位置但在生成回答时却没有真正利用这些信息。这就是所谓的“知道但不说”现象。围绕长上下文退化的问题还有许多其他维度的研究正在进行。 比如关于 KV 缓存压缩KV cache compression的方法研究表明在上下文长度和模型准确率之间存在不可回避的权衡。 又如另一些研究则探讨了上下文能力与推理能力之间的关系指出当前模型架构本身可能就对“长上下文推理”存在结构性限制。这些发现对真实应用场景具有深远影响。 虽然有研究显示通过“信息密集型训练”可以在一定程度上让模型更充分地利用上下文但核心问题依然存在上下文更长不等于模型更聪明。所谓“百万 token 上下文窗口”的承诺可能更多是一种市场宣传而非现实中的稳定能力。对于工程实践者来说这意味着我们需要从“追求最大上下文”转向“设计最有效上下文”。这正是上下文工程的精髓所在。在下一篇中我们将继续深入——聊聊“上下文工程中那些你必须知道的事儿”。点击上方名片关注AI拍档精彩不错过想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”