云商城的网站建设wordpress migrate.min.js是什么
2026/2/22 8:11:05 网站建设 项目流程
云商城的网站建设,wordpress migrate.min.js是什么,贵阳网页设计培训班,360关键词推广大模型虽已具备强大的感知与推理能力#xff0c;但在面对复杂的计算机图形界面操作#xff08;Computer Use#xff09;任务时#xff0c;仍受限于高质量数据稀缺与环境交互反馈缺失的双重挑战。美团技术团队推出了 EvoCUA 模型并在Github、Huggingface开源#xff0c;通过…大模型虽已具备强大的感知与推理能力但在面对复杂的计算机图形界面操作Computer Use任务时仍受限于高质量数据稀缺与环境交互反馈缺失的双重挑战。美团技术团队推出了 EvoCUA 模型并在Github、Huggingface开源通过构建可验证数据合成引擎与十万级并发的交互沙盒将训练范式从传统的“静态轨迹模仿”转变为高效的“经验进化学习”。该方案在权威评测基准 OSWorld 上以 56.7% 的成功率刷新了开源 SOTA2026年1月6日榜单验证了基于经验的进化范式在 GUI 智能体领域的有效性。01 背景与挑战随着大模型的发展AI 已经具备了强大的感知与推理能力。但在真实的使用场景中我们希望 Agent 不仅能回答问题更能解决问题——比如自动处理 Excel 表格、在浏览器中完成复杂的资料检索或跨应用协同。这种对解决问题能力的追求推动了基础模型从 Chat对话者到 Agent行动者 的转变。在这一进程中Computer Use AgentCUA计算机操作智能体 是一个关键里程碑。CUA打破了 API 的限制构建了一种原生的交互方式——像人类一样通过高分辨率视觉感知屏幕并利用鼠标键盘完成跨应用的长链路任务有可能成为下一代操作系统的核心交互入口。然而要训练出一个通用的 CUA我们面临着严峻的数据扩展Data Scaling瓶颈。当前主流的训练范式依赖于对专家轨迹的模仿学习但在将其推向工业级可用时这种方式面临着三大挑战数据合成质量低 真实的高质量轨迹数据极度稀缺且昂贵而试图用大模型直接生成数据往往会陷入“幻觉”。模型生成的指令或计划经常看似合理但在真实的 UI 状态下根本不可执行。缺乏交互反馈 静态数据模仿学习只能告诉模型“什么是对的”却无法告诉它“如果点偏了会发生什么”。缺乏在大规模环境交互中产生的反馈模型就无法捕捉操作与环境变化之间复杂的因果动态难以适应真实环境中渲染差异、网络延迟等随机扰动。长链路探索效率低计算机操作往往涉及数十步甚至上百步的连续决策无约束的探索空间巨大且低效。仅靠简单的模仿学习模型很难学会如何从中间的错误状态中反思并纠错。需要一种更高效和可扩展的范式让模型专注于从海量自身成功和失败的经验里学习和进化。面对上述挑战我们正式推出了EvoCUA 一种原生的计算机操作智能体模型。EvoCUA致力于构建一种进化范式让模型在大规模沙盒环境中像生物进化一样通过不断的试错反思和修正积累海量成功和失败经验进而不断提升自身能力。通过这一范式EvoCUA-32B 在 Computer Use权威的在线评测基准 OSWorld 上取得了 56.7% 的成功率刷新了开源模型的 SOTA 记录以更少的参数量和推理步数超过此前的开源SOTA OpenCUA-72B 45.0%以及领先的闭源模型UI-TARS-2 53.1%。此外实验证实该方案的通用性在不同基座如 Qwen3-VL、OpenCUA及多个尺寸8B 至 72B的模型上均能显著提升 Computer Use 能力 。02 核心技术架构EvoCUA 的核心在于构建“交互-反馈-修正”的闭环。我们针对数据、环境、算法三个维度构建了自维持的进化架构可验证数据合成引擎负责生产高质量任务高并发交互基建支持海量轨迹合成基于经验的迭代算法提供模型进化的关键路径。2.1 可验证数据合成引擎EvoCUA 数据层的核心任务是构建一个自动化流水线能够合成覆盖各个垂直领域的高质量任务指令。我们要求合成数据要满足两个指标场景完备性覆盖从文档办公、Web 检索到系统管理的全场景操作。执行确定性每一条数据必须在真实环境中可执行、可验证杜绝逻辑幻觉。在实现这一目标时我们发现业界通用的“大模型生成 Reward Model (RM) 筛选”范式在 Computer Use 场景下存在本质缺陷语义与执行的割裂传统的 RM 基于语义匹配打分只能判断生成的指令在文本层面是否合理无法验证其在物理层面能否执行。Reward Hacking模型倾向于生成逻辑通顺但包含“幻觉”的指令例如点击不存在的 UI 元素。这些不可执行的任务会引入大量训练噪音导致模型在真实操作中产生严重的错误累积。为了解决数据可信度问题我们提出了 “生成即验证” 范式在生成自然语言指令的同时同步生成可执行的验证代码并以沙盒中的实际运行结果作为判断数据是否有效的唯一标准。整体数据合成框架如下2.1.1 结构化任务空间构建在构建任务空间时我们并未盲目堆砌数据而是基于对 GUI 操作本质的两个核心洞见原子能力的可迁移性与泛化性GUI 操作虽然千变万化但其底层的“原子技能”是跨域复用的。例如“数据筛选”这一能力无论是在 Excel、CRM 系统还是网页后台中其逻辑内核是同构的。复杂任务的组合本质真实世界中的复杂任务本质上是由有限的原子能力通过特定逻辑编排而成的序列。掌握了原子能力的组合方式就等于掌握了生成无限复杂任务的“语法”。基于这两点思考我们采用分层构建策略来初始化任务环境。原子能力拆解我们将复杂的桌面操作任务解构为标准的原子能力单元。基于分层领域分类体系例如将“Excel 财务分析”任务拆解为“公式计算”、“多列排序”、“透视表生成”等子技能。资源文件合成为了模拟真实环境的复杂性我们在环境初始化阶段实施了两种资源生成策略。参数化合成针对结构化数据如销售报表我们利用代码生成器批量生产 Word/Excel 文档随机化其中的姓名、价格、日期等参数。非参数化合成针对非结构化数据我们直接注入无版权问题的互联网上的公开资源如真实的图片、音频、复杂的 PPT 幻灯片强迫 Agent 处理真实世界中不可预知的视觉噪声和布局多样性。2.1.2 指令和验证器合成我们构建了基于 ReAct 的 Agentic 数据合成工作流。当给定一个场景元组角色、能力、资源后作为任务架构师的基础 VLM 会启动生成指令生成符合用户意图的自然语言指令确保任务目标清晰且在当前资源环境下可达成。验证器同步生成对应的可执行验证Python验证代码以及标准答案以文件/配置项等形式存在。这段代码定义了任务成功的精确条件例如检查某个单元格的值是否为 X或某个文件是否存在。不仅如此我们还引入了沙盒执行反馈机制。生成的验证代码会立即在真实沙盒中运行。如果代码报错如 API 错误、语法错误错误日志会被回传给任务架构师进行自我修正。这个过程会迭代多轮直到验证器本身能够成功运行并通过质量检查。2.1.3 质量保障与去污为了确保入库数据的纯净度我们在数据落盘前设置了严格的过滤机制。一致性过滤我们部署了一个测试Agent模型对合成任务进行试跑。通过比对“沙盒实际执行结果”与“验证器判定结果”我们能精准识别出假阳性False Positives数据——即任务其实没做对但验证器误判为成功的案例。只有那些经得起沙盒检验的数据才会被保留。三重去污染用于合成数据的模型本身见过大量的预训练语料包含大量世界知识大规模构造合成数据时有混入和 Benchmark 有一定相关性的数据的风险。为了防止测试集泄露我们实施了三重去污策略语义去重使用 LLM 过滤掉与 基准测试集在语义上高度相似的指令。配置去重剔除与测试集具有相同初始化设置如完全一致的文件名或窗口布局的任务。验证器去重检查生成的验证逻辑和 Ground Truth 文件确保没有直接照搬测试脚本。通过这套数据合成框架我们成功将可验证的训练数据规模扩展到了数万量级突破了人工标注的瓶颈。2.2 支撑十万级沙盒并发的基础设施EvoCUA 的进化范式要求 Agent 进行大规模的探索来合成经验轨迹。我们面临的挑战是工业级的如何在一个集群中稳定调度 100,000 个每日活跃沙盒处理百万级的分钟交互请求同时保证每个环境的严格隔离与毫秒级响应。为此我们构建了一套统一的环境沙盒平台在调度吞吐与环境保真度两个维度做了大量优化。2.2.1 微服务化编排为了消除大规模强化学习中的 I/O 瓶颈我们将传统的单体模拟器重构为基于微服务的异步架构。异步 I/O 网关 面对百万级交互请求传统的阻塞式架构已无法支撑。我们采用了基于 Reactor 模式的异步非阻塞 I/O 设计网关架构实现了 数百万 QPMQueries Per Minute的路由吞吐能力并且将控制面生命周期管理与数据面环境交互流彻底解耦确保长周期的环境执行如打开一个重型 App不会阻塞关键的路由逻辑极大地提升了系统的吞吐上限。沙盒批量急速启停 强化学习的采样阶段具有极强的“脉冲”特性短时间内需求激增。我们的分布式调度器通过分片与资源池化技术实现了极速冷启动能力。通过该优化系统能够在 1 分钟内拉起 10,000 个沙盒实例。这种“即需即供”的弹性能力确保了环境供给严格匹配训练需求最小化了策略更新与经验采集之间的延时保证了训练的高效流转。2.2.2 保真环境构建在解决了“量”的问题后更关键的是“质”。Computer Use 任务对环境的确定性要求极高微小的渲染差异或键位冲突都会导致模型训练非最优。混合虚拟化架构为了兼顾容器编排的灵活性与虚拟机的强隔离性我们采用了 Docker 容器嵌套 QEMU-KVM 的混合架构。外层使用 Docker 对接 K8s 调度体系复用美团成熟的容器化运维能力。内层利用 KVM 硬件加速运行 QEMU 虚拟机。价值这种设计既提供了内核级的安全隔离防止 Agent 执行恶意代码穿透宿主机又保证了接近原生的 GUI 渲染与 I/O 性能。操作系统级校准标准 OS 镜像在自动化操作中存在诸多“隐形坑”导致仿真环境与真实世界存在 Gap。为此我们深度定制了 Ubuntu 22.04 镜像实施了内核与用户态的双重补丁输入确定性 标准虚拟化常存在键位映射冲突例如 US 键盘布局下Shift状态丢失。我们深入内核层修改了xkb的符号定义确保 Agent 的符号意图与实际输入严格一致。渲染一致性 视觉 Agent 对字体布局极其敏感。我们在系统层注入了全套专有字体库并强制刷新fc-cache消除了文档在仿真环境与真实环境下的视觉渲染差异防止模型因环境噪音而产生错误的视觉关联。2.3 基于经验的学习范式有了可验证的数据和高吞吐的环境我们的核心目标是如何让模型像人类一样学习要在大量的自我实践中巩固成功经验并从失败中吸取教训。然而单纯依赖静态数据的监督微调存在两个本质缺陷分布偏移训练数据的分布往往是“完美路径”而推理时的环境充满了随机性。模型一旦偏离了专家轨迹就不知道如何回到正轨。负反馈缺失SFT 只能告诉模型“怎么做是对的”却从未告诉它“怎么做是错的”以及“错在哪里”。EvoCUA 提出了一种渐进式的进化范式将训练过程解耦为三个阶段冷启动注入先验思维模式、拒绝采样微调动态算力分配巩固成功经验、强化学习聚焦关键出错点从失败经验中学习。2.3.1 Cold Start: 冷启动在让 Agent 进入大规模环境进行自由探索之前给模型注入一些思维pattern能够提高模型的有效探索能力。为了摸清当前 Agent 能力的边界我们深入分析了 Qwen3-VL-Thinking、OpenCUA-72B 等主流模型推理轨迹。我们发现各家模型均有一定缺陷。例如OpenCUA-72B 很容易提前误判成功而Qwen3-VL模型在动作空间上存在一些明显缺失如不支持ShiftClick。基于此EvoCUA 在冷启动阶段的核心任务是定义一套完备的动作空间与严谨的思维范式。完备的动作空间处理复杂操作如 Excel 中的Shift Click。如果是原子的press操作无法表达这种持续按压的状态。为此我们将按键拆分为key_down和key_up。结构化思维链为了避免“幻觉”和“伪成功”我们给模型注入了一些像人类一样的优秀思维范式目标澄清在初始时刻强制模型复述并拆解用户意图消除指令歧义。观测一致性简短且精准严格对齐当前的视觉元素防止“看图说话”时的幻觉。自我验证在发出Terminate信号前模型必须执行显式的检查步骤。例如在发完邮件后进入“已发送”文件夹确认而非盲目自信。反思与纠错针对采集到的失败轨迹我们识别出状态偏离的关键分岔点从错误发生后的那一步恢复环境状态通过 Prompt 引导和高温采样让模型自我修正。终止判断Terminate动作必须强依赖于前序的 CoT 论证。如果思维链中没有明确的完成证据模型不得输出结束信号以此抑制“伪成功”。后见之明数据合成在训练数据构造上我们不直接使用模型的原始 CoT。对于成功轨迹我们采用“后见之明”策略——基于正确的 Action 序列反向重写逻辑严密的思维链同时混入不可完成任务教会模型识别环境边界学会说“No”。经过冷启动训练后模型展现出了明显的行为范式转变。它不仅掌握了终端和复杂快捷键的操作更重要的是学会了“慢思考——在关键节点进行校验和反思。这为后续的大规模进化提供了坚实的原子能力基础。2.3.2 RFT拒绝采样微调冷启动赋予了模型基础的原子能力接下来的挑战是如何在万级 Query 上进行 Scaling。我们面临的核心权衡是如何在有限的算力预算下最大化高质量经验的产出效率与信噪比如果对所有任务平均用力会导致简单任务算力浪费而困难任务探索不足。为此EvoCUA 设计了一套“阶梯式动态算力分配 步级别去噪”的拒绝采样微调策略。阶梯式动态算力分配为了最大化探索的 ROI我们将 Query 池划分为不同难度层级并实施阶梯式的 Rollout 策略。我们将采样次数 K 划分为多个档位 {3, 8, 16, 32, 64}并为每个档位设定了成功率阈值如 100%, 75%, 50%…:自适应爬坡模型从低 K 档位开始尝试。如果在当前档位的成功率达到了预设阈值说明模型已掌握则立即停止采样反之若成功率较低则自动升级到下一档位投入更饱和的算力进行攻坚。边界突破这种机制确保了算力被集中投放到模型处于能力边界的困难任务上而非在已熟练的任务上重复“造轮子”。步级去噪模型生成的原始轨迹即使成功了也往往包含大量噪声如无效的鼠标滑动。直接学习这些数据会污染模型。我们实施了精细化的清洗策略冗余和错误步骤过滤利用 Judge Model 分析成功轨迹识别并掉对最终结果无贡献的冗余步骤显著提升了数据的信噪比。Infeasible 任务特判针对不可完成的任务成功的轨迹往往伴随着大量的无效尝试后才终止。对于这类数据我们仅保留最后一步即正确输出TerminateFailure及对应的推理将中间所有的试错步骤全部剔除。通过 RFT我们将大规模的合成经验内化为模型参数显著提升了模型在常规路径的执行成功率。2.3.3 RL强化学习RFT 夯实了模型在常规路径上的执行成功率但面对长链路任务中的环境扰动如弹窗、网络延迟、布局微变模型依然脆弱。相比于成功轨迹中模型已有的知识失败轨迹中蕴含着广阔的、非线性的树状结构信息模型往往会在一些关键步骤出错正是模型能力边界的直接体现。传统的 RL 算法通常以整条轨迹为粒度存在严重的信用分配难题——几十步的操作中可能只有一步是错的全盘否定会导致有效经验被浪费。为了解决这一问题我们提出了一种面向Computer Use的高效DPO算法将优化粒度从“轨迹级”下钻到“关键分岔点” 重点解决模型在出错边缘的能力边界感知问题。关键分岔点挖掘在长达数十步甚至上百步的 GUI 操作中任务失败往往具有滞后性。模型可能在第 5 步做出了一个微小的错误决策如选错了筛选条件但直到第 30 步才因为找不到目标文件而报错。为了精准定位错误EvoCUA 提出了一种基于参考导向的归因机制——关键分岔点挖掘。 我们利用同一 Query 下的“成功轨迹”与“失败轨迹”进行对齐分析。系统会自动定位到状态一致但动作开始偏离的那一帧记为关键分岔点。双范式偏好对构建一旦通过因果诊断锁定了关键错误我们并未止步于简单的行为克隆而是针对出错瞬间”和“出错之后”两个不同的时空切片 构造了两种截然不同的 DPO 偏好范式从而在一次训练中同时兼顾了准确性与鲁棒性。范式一动作修正此范式聚焦于“即时纠错”旨在教模型在关键分岔点(t时刻)必须“走正道”。我们将导致后续失败的原始错误动作作为负样本对于正样本我们优先尝试通过 VLM 语义匹配将成功参考轨迹中的“正确思考与动作”迁移过来。如果参考轨迹无法对齐则调用VLMs模型基于当前视觉状态合成全新的正确动作。范式二反思与恢复此范式聚焦于“错误恢复”旨在提升模型在错误发生后t1 时刻的反思修正能力。在这一时刻环境状态通常已经因为前一步的错误而发生了偏离如出现了预料之外的弹窗。我们把模型无视环境变化、机械执行原计划的“盲目继续”行为标记为负样本同时利用 Prompt工程引导模型生成一条“反思链”作为正样本——即教导模型在发现状态异常时优先选择停下来观察屏幕异常并重新规划而不是一条道走到黑。通过这两个范式的结合模型不仅教会了 Agent 如何做对更教会了它在做错或环境突变时如何反思修正。随着能力的不断提升上述RFT和DPO可以进行多轮迭代训练。除了DPO我们在实践中还探索了online RL通过主动的环境交互模型表现出了持续的奖励增长趋势会在下一个版本的模型中更新。总而言之我们通过“双重机制”将海量的合成经验高效内化为模型参数一方面利用 RFT 来夯实基础的执行范式确保模型在标准任务上的发挥稳定另一方面利用 RL在复杂的长尾场景中主动纠错显著提升模型在能力边界上的鲁棒性与泛化力。03 实验评估为了验证 EvoCUA 范式的有效性我们在权威在线榜单OSWorld上进行评测。实验的核心结论如下EvoCUA-32B 以 56.7% 的成功率刷新了开源模型 SOTA并在同等推理预算(max step50)下逼近了闭源模型 Claude-4.5-Sonnet (58.1%) 的水平同时验证了该进化范式在不同规模模型上的普适性。3.1 OSWorld 评测开源SOTA我们的主力模型 EvoCUA-32B基于 Qwen3-VL-32B-Thinking 后训练达到了 56.7% 的成功率。这一成绩大幅领先此前的开源 SOTAOpenCUA-72B, 45.0%。值得注意的是EvoCUA-32B 超越了闭源强基线 UI-TARS-2-2509 (53.1%)。在严格限制 50 步 推理预算的同等条件下我们与行业顶尖的 Claude-4.5-Sonnet (58.1%) 差距缩小至仅 1.4%。小参数大潜力EvoCUA-8B 同样表现惊艳以 46.1% 的成功率击败了 OpenCUA-72B。与同样基于Qwen3-VL-8B训练的Step-GUI-8B (40.2%) 相比EvoCUA-8B 取得了 5.9% 的显著优势。3.2 消融实验为了探究 EvoCUA 性能提升的来源我们进行了逐层拆解的消融实验。统一动作空间 4.84%通过完善动作空间带来的提升。冷启动2.62%注入高质量的行为先验确立了思维与行动的对齐。RFT 拒绝采样3.13%通过动态算力巩固成功经验在不损失passk能力基础上提升模型的pass1能力。Offline DPO3.21%针对关键分岔点的纠错训练显著提升了模型鲁棒性。迭代训练1.90%再进行一轮迭代训练性能持续增长。3.3 Scaling分析我们进一步验证了 EvoCUA 的 Scaling Law。Max Step随着推理时步数的增加我们观察到模型的性能在不断提升。但由于我们数据中超过50步的样本较少因此大于50步的边际收益收窄。Passk随着采样次数k的增加EvoCUA 始终保持对初始化模型的显著优势。这表明优化后的 Policy 具有更高的天花板。数据规模在 RFT 阶段我们将数据量从 20k 扩展到 1M观察到了持续的性能爬坡。3.4 轨迹可视化分析我们随机抽样一条合成指令任务对训练后的模型采样轨迹进行可视化。以一个电子表格任务为例“找出每行的最大值并填入 G 列”以下是EvoCUA-32B在四个关键时刻的思考与执行过程Step 1目标澄清智能体显式复述并拆解了用户指令。Step2智能体使用excel公式原子能力Max操作。Step 9有状态鼠标交互专业软件操作常涉及“按住并点击”等组合动作。智能体执行“Shift点击”操作以选中 G3 到 G11 的数据范围。Step 15审慎终止判断智能体没有盲目停止而是先生成视觉证据“我看到 Max 列已计算完毕…”。只有在视觉核验结果符合初始指令后它才发出terminate信号确保任务完成。04 总结展望EvoCUA一个基于经验进化范式的原生 Computer Use Agent。通过可验证的合成引擎、可扩展的交互基建和可进化的经验学习算法我们探索出一条提升Computer Use能力的通用方法。在 OSWorld 基准测试中EvoCUA 以56.7%的成功率刷新了开源模型的 SOTA证明了这条路径的有效性。在超过 100 万卡时的上千组实验中我们总结了四条关键的洞察希望能为社区提供参考高信噪比数据是关键 成功轨迹是低噪声但低信息量的失败轨迹是高噪声但高信息量的。如何处理好数据保证较高的信噪比是模型能力持续提升的关键。先验 Pattern 重于数据量冷启动阶段Pattern 的多样性远比数据量重要。一个轻量级但覆盖全原子能力的冷启动比大量低质量数据的 SFT 更能为后续的 RL 打好基础。On-Policy 的重要性在长链路任务优化中要严格使用 On-Policy 数据。一旦过度使用 Off-Policy 数据会导致优化方向偏离原始模型主分量且较难恢复。可视化驱动的迭代数据和算法之外我们开发了大量用于轨迹可视化和 Debug 的分析工具一套全流程可视化诊断工具对于数据质量校验、轨迹对比分析和问题发现至关重要。尽管取得了阶段性突破我们必须承认当前开源模型与顶尖闭源系统及人类水平之间仍存在显著差距。这一差距揭示了单纯依赖离线合成轨迹的性能天花板。我们认为打破这一瓶颈的关键在于在线强化学习。我们初步的实验信号显示通过主动的环境交互模型表现出了持续的奖励增长趋势。未来的工作将聚焦于系统性地拓展这一在线进化边界最终实现完全自主的计算机操作能力。目前EvoCUA 现已全面开源欢迎访问项目主页获取更多信息Github: https://github.com/meituan/EvoCUAHuggingfaceEvoCUA-32B、EvoCUA-8BTechnical ReportPDF| 关注「美团技术团队」微信公众号技术干货| 本文系美团技术团队出品著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容敬请注明“内容转载自美团技术团队”。本文未经许可不得进行商业性转载或者使用。任何商用行为请发送邮件至 techmeituan.com 申请授权。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询