2026/4/16 17:51:20
网站建设
项目流程
企业做网站有什么好处,无锡企业网站改版,域名检测工具,杭州定制软件开发文章讲述了编程范式从软件1.0#xff08;Java、Python等语言编程#xff09;到软件3.0#xff08;大模型时代#xff0c;通过提示词编程#xff09;的演进。详细介绍了AI原生应用的核心概念、AI Agent开发的关键问题#xff08;Workflow与Agent模式选择、单Agent与多Agen…文章讲述了编程范式从软件1.0Java、Python等语言编程到软件3.0大模型时代通过提示词编程的演进。详细介绍了AI原生应用的核心概念、AI Agent开发的关键问题Workflow与Agent模式选择、单Agent与多Agent架构、提示词与上下文工程、AI原生应用参考架构以及可观测性解决方案和开源项目规划为开发者提供了构建AI原生应用的全面指导。编程范式的演进随着技术与发展编程范式不断演进。OpenAI 前创始人特斯拉自动驾驶负责人 Andrej Karpathy 在提出过类似观点。在软件 1.0 时代我们通过计算机的编程语言对计算机进行编程大家熟悉的 Java、Python 等语言都在做这个事情。在 2.0 时代我们通过神经网络参数权重的调整来对神经网络进行编程。大模型时代出现以后我们的编程范式发生了非常深刻的变化软件 3.0 时代随之到来。它体现在我们的编程对象变成了大语言模型LLMLLM 是在 GPU 上运行的而不是我们原来传统的在 CPU 上运行的计算机。而我们的编程语言不再是 Java、Go、Python 这样的一些语言而是用提示词。编写的提示词运行在大语言模型上所以我们是通过提示词对大语言模型进行编程编程出来的应用我们叫做 AI 的原生应用。这种转变使我们对开发范式和应用开发的理解有非常多的思维转变。AI 原生应用的核心概念对于这样一个全新概念很多开发者对于 AI 原生应用的定义是模糊的也不知道 AI 原生应用的架构是什么样的。为了解决这一疑问阿里云定义了的一个 AI 原生应用开发全景图帮助大家更好地理解与探索实践。接下来我们分块进行解读。AI Agent 想要运转起来需要几个非常核心的能力其中包括感知它需要去感知内部外部的环境从而做一些输入和输出大脑也就是通过大模型去帮我们做决策工具去调用外面的工具包括使用 MCP 工具来执行一些必要的动作记忆这个记忆包括长期和短期的记忆在模型应用执行中的上下文是非常关键的。在了解上述基础概念之后我们该怎么开始去开发 AI Agent 呢首先我们需要一些称手的开发框架来生成 AI Agent 的核心部分主流开发语言拥有非常多开发框架来帮简化开发步骤。与此同时随着 AI Coding 工具不断成熟比如通义灵码、Cursor、Claude Code 等工具让低代码也成为生成 Agent 的新方式、新可能。AI Agent 生成后需依赖计算资源执行任务其运行时环境可基于 KubernetesK8s或其他计算范式如函数计算。具体而言任务执行所需的模型推理及 MCP 工具链的运作均需依托底层运行时环境的资源调度能力。构建运行时环境后Agent 的底层架构需依赖通用中间件能力以支撑核心服务。比如通过 Nacos 实现 Prompt 提示词的统一管理及 MCP模型控制器的动态注册与发现通过 AI 网关对多模型和 MCP 实施集中代理同时借助消息队列完成长周期、多阶段任务的异步化改造构建 AI Agent 时其运行时的可观测性是确保系统稳定性与优化能力的关键环节。由于 Agent 的运行逻辑具有动态性与不确定性如多轮推理、事件驱动行为等需通过数据采集探针实时监控其内部状态。比如 LoongSuite 开源探针去采集 token 消耗、模型输入输出等等。有了这些东西我们可以对 AI Agent 的性能、成本和质量进行分析。以上就是我们的全景图。AI Agent 开发的关键问题讲解完基础概念之后那么我们来聊聊 AI Agent 在开发过程中需要关注的关键问题。Workflow 模式 vs Agent 模式搭建 Agent 的时候我们该用哪种模式Workflow 模式其实很简单我们在编排业务时把一些固定的流程通过预定义的步骤通过低代码或高代码平台的方式编排出来。好处就是确定性很高。传统的业务流程、一定不能出错或者确定性强的业务流程我们可以通过这种模式进行。但在面对复杂场景或任务时Workflow 就会显得捉襟见肘。比如需要完成非常高不确定性任务的 Agent会不知道某环节的下一步该怎么走在这种场景下可以通过 Agentic 模式通过大模型来告诉你下一步应该如何执行完成规划和执行。好处就是灵活性会比较高。比如说现在常见的 Deep Research还有 Coding Agent使用的就是 Agentic 模式。在业务实践中技术选型往往需要在准确性与成本效率之间进行权衡。当业务对结果准确性有硬性要求如图像识别中的关键字段提取、发票信息结构化等需采用 Workflow通过预定义规则链实现可验证的处理逻辑以牺牲灵活性为代价换取可预期的准确率。与此同时面对复杂文本信息提取等任务时大模型虽具备更强的语义理解能力但其计算成本显著高于传统方案。实测数据显示GPU集群处理此类任务的成本可达CPU方案的10倍以上。这个时候我们需要去权衡到底用 workflow 模式还是 Agentic 模式但最后也可能是通过混合架构设计实现平衡。单 Agent vs 多 Agent我们需要单 Agent 还是多 Agent?第二个话题是单 Agent 和多 Agent什么情况下应该用单 Agent什么情况要做多 Agent。在目前实践中针对简单、目标明确的场景我们推荐使用单 Agent 方式。单 Agent 的好处是开发和维护相对简单但也存在一些局限性比如模型上下文窗口是有限的当 Agent 越来越复杂一步一步执行的时候每次会带越来越多上下文。当上下文达到一定窗口的情况下这个模型会出现一些幻觉甚至出现一些不确定行为。这时候我们就要考虑是不是通过一个 Agent 就能够完成因此我们要考虑做一些拆分。原则就是说在如无必要的情况下勿增实体也是奥卡姆剃刀原理总的来说在正常情况下尽量使用单 Agent。当然在明确发现任务执行起来非常复杂需要复杂协作的场景建议用多 Agent 来完成。而且多 Agent 有个好处在完成同样编码任务用同样的模型时如果使用多个 Agent 的协作相比单 Agent 模式可以大大提升复杂场景准确率。这是经过实验或者各方面的实践验证出来的效果。比如示例的 Deep Research 就是多维性的典型场景有一个 Leader 负责把任务进行拆解把任务中具体的调研设计任务分配给子 Agent然后再由他把子 Agent 结果进行汇总并返回给用户。提示词工程 vs 上下文工程提示词工程如何实现还是选择流行的上下文工程第三个就是提示词工程和上下文工程。提示词工程是之前比较火的概念主要解决怎样跟模型交互提出正确问题让模型能够准确地回答这个问题。核心关注点是提示词要包含比较清晰的上下文以及示例另外还有一些关键词等等构成我们的提示词。但发现最近 Context Engineering 这个概念越来越流行。原因在于 Agent 越来越复杂Agent 在执行过程中有很多不确定性再加上模型的上下文又是有限的。因此我们要解决如何在有限的上下文窗口里给模型最有效的信息。在复杂场景中模型输入需要整合多源信息包括提示词、RAG 检索的文档、工具调用结果及当前上下文状态这一过程被称为上下文工程。这些内容需精准筛选并组装相关信息确保模型能基于完整且高效的上下文执行任务这就成为一门很讲究的艺术了我们要怎么去把这些东西组装成在一起提供给模型。同时推理效率与 KV 缓存密切相关通过前置固定内容如通用模板、常量参数并后置动态数据如实时输入来提高缓存命中率减少重复计算开销。这样的话其实在前面很多的内容是固定的情况下能够去命中 KV Cache 在推理的时候的缓存。这种对信息层级和缓存机制的精细化管理已成为提升 AI 代理性能的核心方向。上下文工程也成为目前比较需要大家关注的方向。AI 原生应用参考架构在解读完上面的三个问题接下来介绍一下 AI 原生应用的参考架构。以 AI Agent 为核心其运行依赖于多种技术组件协同。Agent 本身可通过不同开发框架构建并部署于计算实例中通过调用数据库或向量数据库获取外部数据支持决策。用户请求首先经过 API 网关接入系统随后转发至 Agent 模块该模块通过统一 AI 网关与模型进行交互。AI 网关作为关键代理承担多模型调用的协议转换、token限流等通用能力尤其在多模型并存的场景下有效协调不同模型接口的差异性。在模型交互过程中它承担重要角色通过 Nacos 实现对公有和私有服务的统一注册与动态提示词管理确保模型调用的灵活性与可扩展性。对于涉及长周期处理的异步任务系统依赖消息事件机制完成状态管理通过事件驱动的方式解耦任务执行与响应流程。所有组件产生的可观测性数据如性能指标、调用链路均通过标准 OpenTelemetry 协议采集由 LoongSuite 探针统一汇聚至可观测平台用于实现系统诊断、模型效果评估及运行时优化。接下来的话我会介绍一下这几个关键的组件。Spring AI Alibaba第一个 Spring AI Alibaba它基于开源的 Spring AI 组件封装了更多能力比如支持 workflow、Agent 的模式以及单 Agent 多 Agent 的一些抽象配置帮助 Java 应用开发者去更好的开发 AI 原生应用。在此基础上我们构建了更上层的业务场景也就是通用的 Agent 叫 JManus就是 Java 的 Manus 实现。还有一些典型垂直类的 Agent 场景比如 Deep Research、Data Agent 等等。Spring Al Alibaba 对于 Java 开发者来说是开发 AI 应用时能立刻上手、功能相对完整的框架之一。Nacos在 AI 原生应用场景中Nacos 作为动态配置管理与注册中心的角色进一步延伸至 MCP 服务治理领域。当 Agent 需要访问传统微服务或第三方工具时可通过本地启动的 Local Server 将服务转换为 MCP 接口或通过远程 MCP Server 调用传统服务。对于涉及企业敏感数据或内部业务逻辑的 MCP 服务需通过私有化部署的 MCP 注册中心实现统一管理。既满足了 AI Agent 对异构服务的灵活调用需求又保障了企业级服务治理的安全性与可控性。HigressHigress 是 AI 网关的核心角色。中间的这块东西就是我们的 AI 应用和模型之间有一个核心的 AI 网关的代理能力它可以做到一些核心的 AI 能力比如 LLM 缓存向量的一些检索还有像 token 的一些限流。在安全方面包括一些协议的适配我可能要去适配多个 OpenAI 模型的协议以及 API 的统一管理。然后最近在做的主要就是 MCP 代理的这块就是怎么把一些私有化或者公共的 MCP 服务统一地暴露给 Agent并且做一些细粒度的认证以及动态发现等一些能力。另外协议转换也是比较重要的一块能力就是把一些传统的 OpenAPI 的协议转成标准的 MCP 协议都是可以通过这个 AI 网关和 MCP 网关来承接的。Apache RocketMQ在 AI Agent 的复杂交互场景中Apache RocketMQ 通过消息队列机制解决了多轮对话中的状态恢复与重试成本问题。当 Agent 与模型进行多阶段交互时中间结果如阶段性响应、流式输出通常以临时状态形式存在一旦网络中断或服务异常传统架构需从头发起 GPU 计算的重试流程其成本可能是 CPU 时代微服务场景的十倍以上。RocketMQ 创新性地将 AI 框架下的会话session映射为消息队列的 Topic将所有中间状态实时写入队列存储。例如网关作为消费者订阅该 Topic 并逐步将结果推送给客户端若当前网关节点故障系统可动态切换至备用消费者节点新节点可通过订阅同一 Topic 获取已存储的中间数据从而实现断点续传式的恢复能力。这种设计避免了 GPU 资源的重复消耗同时通过消息队列的持久化特性保障了长周期任务的可靠性。可观测性解决方案接下来是可观测性的一些介绍。在应用 AI 应用的开发过程中总结下来可观测性有三大痛点。第一个怎么把它用起来第二个是怎么用的省第三个是怎么用的好。第一个问题是当我们把这些应用搭起来调用模型的过程中发现推理过程特别慢特别卡或者是有报错不知道卡在哪里它解决要怎么把它用起来的问题。然后第二个就是发现用了一段时间之后怎么这个账单突然一下子就爆炸了或者这个 token 怎么消耗这么多到底消耗在哪了不知道怎么把它用得更加经济节省。然后第三个就是模型回答的质量好不好我们也不清楚需要对它进行评估就怎么把它用得更好解决这三个问题。解决这三个问题首先要在整个 Agent 运行的整条链路中通过可观测数据的采集探针把这些可观测数据给采上来。这些数据包含什么呢包含我们的所有的链路信息从端侧到 API 网关到 AI Agent再到 AI 网关再到我们的模型内部每个环节到底发生了什么我们都希望能把它记录下来。这里面包括调用的输入输出token 的消耗tools 的使用等等。第二个就是收集一些关键指标能够反映当前的运行行为。第三个是通过模型采集数据对 Agent 的行为进行质量分析和评估。这里我们通过 OpenTelemetry 开源的标准它这里面既包括了开源的 SDK 也有提供的探针的方案。就是说把一些探针动态地挂载到这个 AI 应用里面。例如像 Java、Python 构建的这些 AI 应用都可以通过探针挂载到这个应用里面去它能够动态地采集上述的可观测数据。另外在模型侧我们发现很多模型都是通过 vLLM、SGLang 这种推理加速框架去拉起来的模型它其实也是个 Python 应用我们可以把探针挂载进去采集在模型内部的推理的一些流程和细节的信息。同时在 GPU 层面也可以去采集这些 GPU 的使用率等信息。有了这些数据的话我们可以进行上述的三个处理。这里简单介绍一下我们应该关注哪些关键指标。首先在应用里面在 Agent 里面原来的微服务时代我们的黄金三指标可能是 RED是 Request、Error、Duration。但是现在我们发现在 AI 应用里面更关键的是我们的 Token 消耗。新的黄金三指标是 TEDToken、Error 和 Duration 是最关键的三个指标。在模型推理加速时有两个非常关键的指标需要关注。一个叫 TTFTTime to First Token一个叫 TPOTTime Per Output Token。TTFT 取决于什么呢上下文 input 给到模型到模型吐出第一个 token 的时间这个叫做首包延迟时间它决定了我们的模型推理的流畅度。TPOT就是从第一个首包出来以后再到它把所有的包都出完再除以它的耗时得到的指标数据叫做 TPOT就是说首包延迟以后后续平均的每包的传输时间这反映了模型在 decode 阶段的关键性能。所以这两个指标是一定要关注的。在一些模型推理的关键阶段KV Cache 的缓存命中率以及 GPU 的一些利用率等等包括一些吞吐的能力也是需要关注的。在评估的场景下主要是要关注准确性、偏见、毒性等指标。刚才说了指标另外一个重要方面是 Trace。它能够帮我们非常清晰地看到模型推理调用内部一个实时的运行状况到底经过了哪些节点。在这里怎么看呢比如说我们通过标准的 OpenTelemetry 的 Tracing 协议可以采集到每个关键的环节。这个截图里面使用一个 Dify 构建起来的一个 workflow去调用一个 vLLM 的一个模型。那么通过这个调用链可以看到它的时间总的 token 消耗以及它的 input 和 output 是什么。每一个 Dify 下面的 workflow 的关键节点信息以及它的耗时分别是什么。因此我们可以看到耗时比较长的是在这个 LLM 调用这个阶段在这个阶段它的 token 消耗是这么多然后再到模型内部通过全链路追踪的能力把模型内部的调用过程也会反映出来。通过这个 trace 能够准确地看到每一次执行的情况。最后就是评估评估是在 AI Agent 这个场景下非常重要的概念。它相当于传统软件开发里的回归测试。这个流程是循环结构而不是一次性行为。我们在开发阶段开发出 Agent 之后通过 tracing 记录模型的输入输出对它进行初步评估。这个评估有两种类型一种叫做人工评估它比较适合在 AI 应用开发的前期去进行。需要人为核对 AI 应用的结果是不是符合预期。首先挑选一些固定的 case我们明确知道这个模型的返回结果的那种 case然后人为地去评估这个运行的结果是不是满足预期。当到达一定的稳态以后我们可以把它转为 LLM 评估就是用第三方的模型来帮我们进行评估这样的话可以更好的提升扩展性和效率。这个流程从评估完成以后到线上部署我们会线上持续地去追踪这个线上的数据就刚才说的指标 tracing 以及日志等等一些能力去反馈和优化我们的 Agent。然后再通过 Agent 的不断地去迭代循环往复。在评估的时有哪些重点要关注的地方分三个阶段一个叫 Planning。Planning 就是模型在拆分任务或者说 Agent 在拆分任务的时候它到底拆分的准不准确有没有重复的或者有没有拆分的足够准确是否绕了弯路等等。这些方向是我们在评估时需要重点考虑的一些要素。还有一块是工具的调用。很多时候模型的输入不稳定是因为 tools 调用有问题没有选择正确的 tools。第二个是可能在 tools 参数识别的时候识别的不准确传递了错误的信息。这些东西都是要在评估阶段关键考虑的。还有像 RAG 阶段在召回的过程中需要关注语料的一些召回是不是有相关性是不是有重复等等。有了这些以后我们可以把这些数据送到可观测平台。这个平台里面我们可以去持续的自动化的定时地去抽取一些线上的运行的数据然后对它进行评估。我们定义好了这些评估模板以后就可以自动化的线上持续运行了。然后通过评估可以把这些结果打出分数帮助我们数字化分析。开源项目规划最近我们刚刚发布了开源项目 LoongSuite。Loong 是中文的龙的意思Suite 是采集套件的意思我们希望在开源的 OpenTelemetry 社区基础上提供针对 AI Agent 开发所需要的各种框架的一些自动化采集探针能力。比如说有 Java 的有 Go 的和 Python 的探针。这探针针对我们刚才说的用不同语言开发出来的 Agent能够去自动捕获它的一些数据包括指标 trace还有日志 input、output 这些东西可以送到开源的一些存储支持任何以 OTLP 协议也就是标准的 OpenTelemetry 协议兼容的控制台比如说 Jaeger 或者是 Elastic Search。这些也可以上报到云服务上面通过云平台来帮你完成这些数据存储和展示以及托管。基于此来完成性能成本和质量分析与评估。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取