信息门户网站开发合同手机asp网站
2026/4/3 15:36:12 网站建设 项目流程
信息门户网站开发合同,手机asp网站,wordpress添加字体,网站开发前景咋样AI 代理(AI Agents)正在改变我们使用技术的方式。它们由大型语言模型驱动#xff0c;能够回答问题、完成任务并连接数据或 API。但它们仍然会犯错#xff0c;尤其是在复杂的、多步骤的工作中#xff0c;而且手动修复这些错误既耗时又费力。 微软#xff08;Microsoft#…AI 代理(AI Agents)正在改变我们使用技术的方式。它们由大型语言模型驱动能够回答问题、完成任务并连接数据或 API。但它们仍然会犯错尤其是在复杂的、多步骤的工作中而且手动修复这些错误既耗时又费力。微软Microsoft全新的Agent Lightning 框架让这一切变得更容易。它将代理的运行方式与学习方式分离开来使代理能够通过自身的真实世界交互进行改进。你可以将任何现有的聊天或自动化设置应用强化学习帮助你的代理在执行任务的过程中变得更智能。什么是 Microsoft Agent LightningAgent Lightning是一个由微软开发的开源框架用于通过强化学习RL训练和改进 AI 代理。Agent Lightning 的强大之处在于它几乎可以用零代码修改的方式封装任何已使用其他框架如 LangChain、OpenAI Agents SDK、AutoGen、CrewAI、LangGraph 或自定义 Python开发的现有代理。更专业地说它可以在不改变代理核心逻辑的情况下对代理中托管的LLM进行强化学习训练。其基本思想是将代理的执行视为一个马尔可夫决策过程Markov Decision Process即“在每一步中代理处于某个状态执行一个动作LLM 输出当这些动作导致任务成功完成时代理将获得一些奖励。”该框架包含一个Python SDK和一个训练服务器。你只需将代理的逻辑封装到一个LitAgent类或类似的接口中定义如何评估其输出即奖励就可以开始训练了。Agent Lightning 会负责收集这些经验将其馈送到你的分层强化学习算法LightningRL中进行信用分配credit assignment并更新代理的模型或提示模板。训练完成后你的代理性能就会得到提升。为什么 Agent Lightning 很重要传统的代理框架如 LangChain、LangGraph、CrewAI 或 AutoGen允许创建能够进行分步推理或使用工具的 AI 代理但它们缺乏训练组件。这些代理只是在静态模型参数或提示上运行模型这意味着它们无法从自身的遭遇中学习。现实世界的挑战具有一定的复杂性需要一定程度的适应性。Agent Lightning 解决了这个问题将学习能力引入了代理管道。Agent Lightning 通过实施自动化优化管道来弥补这一预期的差距。它利用强化学习的力量根据反馈信号来更新代理的策略。简单来说你的代理现在可以从自身的成功和失败中学习从而可能产生更可靠、更值得信赖的结果。Agent Lightning 的工作原理Agent Lightning 在客户端-服务器架构中利用了一种 RL 算法该算法旨在生成任务和调优提议包括新的提示或模型权重。这些任务由Runner执行Runner 收集代理的动作和最终奖励并将数据返回给算法。这个反馈循环允许代理随着时间的推移进一步微调其提示或权重它利用了一种称为“自动中间奖励”Automatic Intermediate Rewarding的功能为成功的中间动作提供更小、即时的奖励以加速学习过程。Agent Lightning 本质上将代理操作视为一个循环状态是其当前上下文动作是其下一步行动奖励是任务成功的指标。通过设计这种状态-动作-奖励的转换Agent Lightning 最终可以促进任何类型代理的训练。Agent Lightning 采用了代理解耦Agent Disaggregation设计将学习与执行分离。服务器负责更新和优化而客户端负责执行实际任务并报告结果。这种任务划分使得代理能够有效地完成任务同时通过 RL 提高性能。★注意Agent Lightning 使用LightningRL。这是一个分层的强化学习系统它将复杂的、多步骤的代理行为分解进行训练。LightningRL 还能支持多代理、复杂的工具使用和延迟反馈。使用 Microsoft Agent Lightning 训练代理在本节中我们将介绍如何使用 Agent-Lightning 训练一个SQL 代理并演示系统中主要组件的集成一个基于 LangGraph 的 SQL 代理、VERLRL 框架和用于控制训练和调试的Trainer。命令行示例examples/spider/train_sql_agent.py提供了一个完整的可运行示例但本文档旨在帮助开发人员理解架构和工作流程以便他们在自己的用例中能够安心使用。代理架构Agent-Lightning 可以与 AutoGen、CrewAI、LangGraph、OpenAI Agents SDK 和其他自定义 Python 逻辑等框架无缝协作。在这个例子中LangGraph定义了一个循环工作流模拟了数据分析师如何迭代地编写和修复 SQL 查询工作流程有四个功能阶段write_query接收用户问题从文本问题生成初始 SQL 查询。execute_query在目标数据库中执行生成的查询。check_query使用验证提示CHECK_QUERY_PROMPT来验证结果。rewrite_query如果存在问题重写查询。循环持续进行直到查询通过验证或达到最大迭代次数max_turns。强化学习将优化write_query和rewrite_query这两个阶段。构建 LangGraph 代理为了保持代码的模块化和可维护性将 LangGraph 逻辑定义在一个单独的构建器函数中如下所示from langgraph import StateGraphdef build_langgraph_sql_agent( database_path: str, openai_base_url: str, model: str, sampling_parameters: dict, max_turns: int, truncate_length: int ): # 第 1 步定义 LangGraph 工作流 builder StateGraph() # 第 2 步为每一步添加代理节点 builder.add_node(write_query) builder.add_node(execute_query) builder.add_node(check_query) builder.add_node(rewrite_query) # 第 3 步连接工作流边缘 builder.add_edge(__start__, write_query) builder.add_edge(write_query, execute_query) builder.add_edge(execute_query, check_query) builder.add_edge(check_query, rewrite_query) builder.add_edge(rewrite_query, __end__) # 第 4 步编译图表 return builder.compile().graph()这样做可以将你的 LangGraph 逻辑与 Agent-Lightning 未来可能的更新分离开来从而提高代码的可读性和可维护性。连接 LangGraph 与 Agent-LightningLitSQLAgent类充当 LangGraph 和 Agent-Lightning 之间的桥梁。它扩展了agl.LitAgent以便 Runner 可以为每次推出rollout管理共享资源如 LLM。import agentlightning as aglclass LitSQLAgent(agl.LitAgent[dict]): def __init__(self, max_turns: int, truncate_length: int): super().__init__() self.max_turns max_turns self.truncate_length truncate_length def rollout(self, task: dict, resources: agl.NamedResources, rollout: agl.Rollout) - float: # 第 1 步加载共享 LLM 资源 llm: agl.LLM resources[main_llm] # 第 2 步动态构建 LangGraph 代理 agent build_langgraph_sql_agent( database_pathsqlite:/// task[db_id], openai_base_urlllm.get_base_url(rollout.rollout_id, rollout.attempt.attempt_id), modelllm.model, sampling_parametersllm.sampling_parameters, max_turnsself.max_turns, truncate_lengthself.truncate_length, ) # 第 3 步调用代理 result agent.invoke({question: task[question]}, { callbacks: [self.tracer.get_langchain_handler()], recursion_limit: 100, }) # 第 4 步评估查询以生成奖励 reward evaluate_query( result[query], task[ground_truth], task[db_path], raise_on_errorFalse ) return reward★注意“main_llm”资源键是代理和 VERL 之间的一种协作约定用于在服务的上下文中为每次推出提供正确的端点访问。奖励信号与评估evaluate_query函数将定义 RL 训练的奖励机制。Spider 数据集上的每个任务都包含一个ground-truthSQL 查询。奖励机制将模型生成的 SQL 查询与参考 SQL 查询进行比较def evaluate_query(predicted_query, ground_truth_query, db_path, raise_on_errorFalse): result_pred run_sql(predicted_query, db_path) result_true run_sql(ground_truth_query, db_path) return 1.0 if result_pred result_true else 0.0★注意代理在训练期间绝不能看到真实标签查询否则将导致信息泄露。配置 VERL 进行强化学习VERL是代理的 RL 后端。其配置就像一个 Python 字典一样你在其中输入算法、模型、推出参数和训练选项。这是一个简单的配置verl_config { algorithm: {adv_estimator: grpo, use_kl_in_reward: False}, data: { train_batch_size: 32, max_prompt_length: 4096, max_response_length: 2048, }, actor_rollout_ref: { rollout: {name: vllm, n: 4, multi_turn: {format: hermes}}, actor: {ppo_mini_batch_size: 32, optim: {lr: 1e-6}}, model: {path: Qwen/Qwen2.5-Coder-1.5B-Instruct}, }, trainer: { n_gpus_per_node: 1, val_before_train: True, test_freq: 32, save_freq: 64, total_epochs: 2, }, }这类似于您可以在命令行中运行的命令python3 -m verl.trainer.main_ppo \ algorithm.adv_estimatorgrpo \ data.train_batch_size32 \ actor_rollout_ref.model.pathQwen/Qwen2.5-Coder-1.5B-Instruct使用 Trainer 协调训练Trainer是一个高级协调器它连接了代理、RL 算法、数据集和分布式 Runner 的所有部分。import pandas as pd import agentlightning as agl # 第 1 步初始化代理和算法agent LitSQLAgent(max_turns3, truncate_length1024) algorithm agl.VERL(verl_config) # 第 2 步初始化 Trainertrainer agl.Trainer( n_runners10, algorithmalgorithm, adapter{agent_match: write|rewrite} # 优化两个查询阶段) # 第 3 步加载数据集train_data pd.read_parquet(data/train_spider.parquet).to_dict(records) val_data pd.read_parquet(data/test_dev_500.parquet).to_dict(records) # 第 4 步训练trainer.fit(agent, train_datasettrain_data, val_datasetval_data)幕后发生的事情是VERL启动一个兼容 OpenAI 的代理proxy以便在不实施 OpenAI 请求的情况下分配工作。Trainer创建 10 个 Runner 并发执行。每个 Runner 调用rollout方法收集轨迹并发送奖励以更新策略。使用trainer.dev()调试代理在开始完整的 RL 训练之前建议空运行dry-run整个管道以检查连接和轨迹。trainer agl.Trainer( n_workers1, initial_resources{ main_llm: agl.LLM( endpointos.environ[OPENAI_API_BASE], modelgpt-4.1-nano, sampling_parameters{temperature: 0.7}, ) }, ) # 加载一小部分子集用于空运行import pandas as pd dev_data pd.read_parquet(data/test_dev_500.parquet).to_dict(records)[:10] # 运行空运行模式trainer.dev(agent, dev_datasetdev_data)这可以在您开始漫长的 GPU 训练之前确认整个 LangGraph 控制流、数据库连接和奖励逻辑都是正确的。运行示例要设置环境请安装依赖项例如使用pip install -r requirements.txt并运行完整的训练脚本# 第 1 步安装依赖项pip install agentlightning[verl] langchain pandas gdown# 第 2 步下载 Spider 数据集cd examples/spidergdown --fuzzy https://drive.google.com/file/d/1oi9J1jZP9TyM35L85CL3qeGWl2jqlnL6/viewunzip -q spider-data.zip -d data rm spider-data.zip# 第 3 步启动训练python train_sql_agent.py qwen # Qwen-2.5-Coder-1.5B# 或者python train_sql_agent.py llama # LLaMA 3.2 1B如果您使用托管在 Hugging Face 上的模型请务必导出您的 tokenexport HF_TOKENyour_huggingface_token不使用 VERL 进行调试如果您想在不使用强化学习的情况下验证代理逻辑可以使用内置的调试助手export OPENAI_API_BASEhttps://api.openai.com/v1export OPENAI_API_KEYyour_api_key_herecd examples/spiderpython sql_agent.py这将允许您使用当前的 LLM 端点运行SQL 代理以确认查询已执行并且控制流按预期工作。评估结果★注意在单块 80 GB GPU 上运行python train_sql_agent.py qwen通常需要约 12 小时才能完成。您会看到训练奖励持续增加表明代理正在随着时间的推移改进其 SQL 生成过程。因此由于资源限制我使用了官方文档中显示的结果。什么时候用 Agent Lightning在实际情况中如果您的应用程序客户支持聊天机器人、自动化编码助手等中有一个基于 LLM 的代理扮演着重要角色并且您打算对其进行改进那么Agent Lightning是一个强有力的选择。该框架已被证明在SQL 查询生成等任务中有效。在这些和类似的情况下Agent Lightning 接手了一个已存在的代理并通过 RL 或提示优化对其进行了进一步优化从而获得了更准确的答案。如果您希望 AI 代理通过试错来学习就应该使用 Agent Lightning。它专为具有清晰成功或失败信号的多步骤逻辑场景而设计。例如Agent Lightning 可以通过利用执行时观察到的反馈来学习从而改进一个生成数据库查询的机器人。这种学习模型也适用于聊天机器人、虚拟助手、游戏代理以及使用工具或 API 的通用代理。Agent Lightning 框架是代理不可知的。它可以根据需要在一台标准 PC 或服务器上运行因此您可以在自己的笔记本电脑或云上训练模型。总结Microsoft Agent Lightning 是一种令人印象深刻的新机制用于提高 AI 代理的智能水平。Agent Lightning 没有将代理视为一个固定的对象或一段代码而是启用了训练循环让您的代理可以从经验中学习。通过将训练与执行解耦它可以在不进行任何代码更改的情况下优化任何代理工作流。这意味着无论是自定义代理、LangChain 机器人、CrewAI、LangGraph、AutoGen 还是更具体的 OpenAI SDK 代理您都可以通过使用 Agent Lightning切换到强化学习机制轻松增强其工作流。实际上您正在使您的代理能够从自己的数据中变得更智能。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容​一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容​2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询