2026/5/24 12:24:59
网站建设
项目流程
微网站开发提供的服务,单位网站建设情况说明书,数据型网站,郑州新闻发布会直播这项由加州大学圣巴巴拉分校的刘腾霄与谷歌云AI研究院、谷歌DeepMind、纽约大学的研究团队共同完成的研究#xff0c;发表于2025年11月21日的arXiv预印本服务器#xff0c;论文编号为arXiv:2511.17006v1。有兴趣深入了解的读者可以通过该编号查询完整论文。在日常生活中…这项由加州大学圣巴巴拉分校的刘腾霄与谷歌云AI研究院、谷歌DeepMind、纽约大学的研究团队共同完成的研究发表于2025年11月21日的arXiv预印本服务器论文编号为arXiv:2511.17006v1。有兴趣深入了解的读者可以通过该编号查询完整论文。在日常生活中我们经常面临这样的情况手头的钱有限需要明智地花费每一分钱来完成购物任务。AI代理也面临类似的挑战只不过它们的钱是计算资源和工具调用次数。研究团队发现了一个有趣的现象即使给AI代理更多的工具使用预算它们的表现也不会变好就像给一个不会理财的人更多钱他们可能还是会乱花一样。这个问题的核心在于现有的AI代理缺乏预算意识。它们不知道自己还有多少资源可以使用也不懂得如何根据剩余资源来调整策略。就像一个人购物时不看钱包里还有多少钱结果要么钱花光了还没买到重要的东西要么买了一堆不必要的物品。研究团队针对这个问题开发了两个创新解决方案。第一个是预算追踪器这就像给AI代理装上了一个实时显示剩余预算的小屏幕让它时刻知道自己还能使用多少次工具。第二个更高级的解决方案叫做BATS预算感知测试时缩放这不仅让AI代理知道剩余预算还教会它如何根据预算情况动态调整工作策略。为了测试这些方法的效果研究团队设计了一个统一的成本计量系统将AI代理的思考成本处理文字的费用和行动成本使用工具的费用合并计算就像把买菜的钱和买肉的钱加起来算总的采购成本一样。这让他们能够公平地比较不同方法的性价比。实验结果令人振奋。在网络搜索任务中配备了预算追踪器的AI代理在各种预算限制下都表现得更好。更重要的是BATS框架能够在使用更少资源的情况下获得更高的准确率。这就像一个精明的购物者不仅能用更少的钱买到更好的商品还能根据钱包里的余额灵活调整购买策略。这项研究的意义远不止于技术层面的突破。在现实应用中AI代理的资源使用直接关系到运行成本和效率。无论是企业使用AI来处理客户咨询还是个人使用AI助手来完成日常任务都需要在有限的计算预算内获得最佳效果。这项研究为构建更加经济高效的AI系统提供了重要的理论基础和实践指导。一、现有AI代理的花钱困境当我们给孩子零花钱时有些孩子会很快花光有些孩子则会精心规划每一分钱的用途。AI代理在使用计算资源时也存在类似的差异。研究团队通过大量实验发现传统的AI代理就像那些不懂理财的孩子即使给它们更多的预算工具调用次数它们也无法有效利用这些额外资源。这个问题的根本原因是什么呢AI代理在工作时需要消耗两种主要资源一种是思考资源用于处理和分析文本信息另一种是行动资源用于调用外部工具如搜索引擎或浏览网页。就像一个研究员既需要时间来思考问题也需要预算来购买实验设备一样。研究团队发现当前的AI代理缺乏对自身资源消耗的认知能力。它们不知道自己已经用了多少次工具也不清楚还剩多少预算。这导致了两个严重问题要么代理过早地停止工作明明还有资源却不继续深入探索要么代理采用低效的策略浪费宝贵的资源在不重要的任务上。为了更好地理解这个问题研究团队建立了一个数学模型来描述AI代理的测试时缩放行为。他们将问题形式化为一个预算约束优化问题在给定的工具调用预算内AI代理需要最大化任务完成的准确率。这就像要求一个厨师在固定的食材预算内做出最美味的菜肴。研究团队还特别关注了网络搜索代理这一应用场景。这类代理需要使用搜索和浏览工具来回答复杂的信息查询问题。每次搜索查询和网页浏览都会消耗预算因此如何明智地分配这些调用次数对最终效果至关重要。实验数据显示在没有预算意识的情况下代理往往会在答案质量达到平台期后继续消耗资源却无法获得相应的性能提升。这种现象在实际应用中造成了巨大的资源浪费。企业在部署AI代理时往往需要为每次工具调用付费而低效的资源使用直接转化为更高的运营成本。研究团队认识到解决这个问题需要从根本上改变AI代理对资源的认知和管理方式。二、预算追踪器给AI代理装上钱包显示器研究团队开发的第一个解决方案简单而巧妙他们称之为预算追踪器。这个工具的工作原理就像在AI代理面前放置一个实时更新的预算显示屏让它时刻知道自己还有多少钱可以花。预算追踪器的设计哲学是简单有效。它不需要对现有的AI代理架构进行复杂的修改而是像一个插件一样可以轻松集成到任何基于ReAct框架的代理系统中。每当代理使用一次工具后追踪器就会自动更新并显示剩余的预算信息包括搜索查询次数和网页浏览次数的余额。这个看似简单的改进带来了显著的效果提升。实验结果显示仅仅是让AI代理知道自己的预算状况就能在各种不同的语言模型上持续提升任务完成的准确率。这证明了预算意识对AI代理性能的重要性就像一个消费者知道自己钱包里的余额后会做出更明智的购买决策一样。更令人惊喜的是预算追踪器在资源效率方面的表现。研究团队发现配备了预算追踪器的AI代理不仅准确率更高而且能够用更少的资源达到同样的效果。在某些测试中使用十分之一预算的追踪器代理就能达到传统代理使用全部预算的准确率水平同时搜索调用次数减少了40.4%浏览调用次数减少了21.4%整体成本降低了31.3%。预算追踪器还解决了另一个重要问题资源扩展性。传统的AI代理在达到性能平台期后即使给予更多预算也无法进一步提升效果就像给一个已经吃饱的人更多食物也不会让他更满足一样。而配备了预算追踪器的代理能够有效利用额外的预算资源实现持续的性能改进。研究团队在三个不同的信息搜索数据集上验证了预算追踪器的效果包括英文的BrowseComp数据集、中文的BrowseComp-ZH数据集以及专门测试搜索能力的HLE-Search数据集。在所有测试中预算追踪器都表现出了一致的改进效果证明了其方法的普适性和可靠性。三、BATS框架AI代理的智能资源管理系统虽然预算追踪器已经带来了显著的改进但研究团队并未止步于此。他们开发了一个更加先进的解决方案——BATSBudget Aware Test-time Scaling预算感知测试时缩放框架。如果说预算追踪器是给AI代理装了一个余额显示器那么BATS就是为代理配备了一个智能的财务规划师。BATS框架的核心创新在于其动态适应能力。它不仅让AI代理知道剩余预算更重要的是教会代理如何根据预算情况调整工作策略。就像一个经验丰富的项目经理会根据剩余时间和资源来调整项目计划一样BATS让AI代理能够在执行过程中灵活地调整其探索深度和验证策略。BATS框架包含两个关键模块预算感知规划模块和预算感知自我验证模块。规划模块的工作就像制定一个详细的购物清单它会根据问题的复杂程度和当前预算来制定行动计划。这个计划不是一成不变的而是会根据执行过程中获得的新信息和剩余预算的变化进行动态调整。规划模块采用了一种巧妙的约束分解策略。它将复杂的查询问题分解为两类约束探索性约束和验证性约束。探索性约束用于扩大候选答案的搜索范围而验证性约束则用于确认具体的细节。这种分解方式让代理能够更有策略地分配预算避免过早陷入细节验证而忽略了更广泛的探索。自我验证模块则像一个质量控制专员它会在每次代理提出答案时进行严格的检查。更重要的是这个模块具有预算感知能力能够根据当前的资源状况决定是继续深入当前方向、转向其他探索路径还是接受当前答案。这种动态决策机制确保了代理在任何预算约束下都能做出最优的资源分配决策。BATS框架的验证模块还具有轨迹压缩功能。当代理决定改变策略时验证模块会将之前的探索过程压缩成简洁的摘要既保留了有用的信息又为后续操作释放了上下文空间。这就像一个记录员会将长篇的会议记录精炼成要点摘要既节省了存储空间又保留了关键信息。实验结果显示BATS框架在各种预算约束下都能实现更好的成本效益平衡。它不仅在准确率上超越了传统方法更重要的是推进了成本-性能的帕累托前沿这意味着在任何给定的成本下BATS都能提供更好的性能或者在任何给定的性能要求下BATS都能以更低的成本实现。四、实验验证理论与现实的完美结合为了验证预算感知方法的有效性研究团队设计了一系列全面而严格的实验。他们选择了三个具有挑战性的信息搜索数据集进行测试每个数据集都代表了不同类型的复杂查询任务。BrowseComp数据集包含1266个困难的网络浏览问题需要代理进行持续的信息检索和推理。这些问题通常涉及多轮搜索和深度的网页内容分析是测试代理综合能力的理想选择。BrowseComp-ZH数据集则包含289个中文问题专门测试代理在区域特定网络环境中的表现能力这对于验证方法的跨语言适用性至关重要。HLE-Search数据集是从人类最后考试中精选出的200个问题这些问题明确要求通过搜索而非纯推理来解答。这个数据集的设计确保了测试的焦点真正集中在代理的搜索和信息整合能力上而非其内在的知识储备。实验设计中最重要的创新之一是统一成本度量系统的引入。传统的评估方法往往只关注任务准确率而忽略了达成这种准确率所需的资源成本。研究团队开发的统一成本度量将代理的思考成本令牌处理费用和行动成本工具调用费用合并计算就像计算一次完整旅行的总费用需要包括交通、住宿和餐饮所有开销一样。这种成本计算方式的精妙之处在于它考虑了代理运行的所有经济成本。令牌成本根据不同类型输入、输出、缓存命中采用了差异化定价工具调用成本则基于实际的API服务定价。这样的设计确保了实验结果与实际部署环境的经济现实高度一致。实验结果令人印象深刻。在严格的预算约束下每种工具100次调用BATS框架在所有测试数据集上都显著超越了基线方法。使用Gemini-2.5-Pro模型时BATS在BrowseComp上达到了24.6%的准确率在BrowseComp-ZH上达到了46.0%在HLE-Search上达到了27.0%。这些数字不仅代表了绝对性能的提升更重要的是它们是在没有任何特定任务训练的情况下实现的。早期停止实验提供了另一个有趣的视角。当允许代理在找到满意答案时提前结束而不必耗尽所有预算时BATS表现出了更加智能的资源管理能力。它能够根据问题的复杂程度和当前进展动态调整资源使用在简单问题上快速得出答案在复杂问题上投入更多资源进行深入探索。消融研究进一步验证了BATS各个组件的重要性。移除规划模块会导致中等程度的性能下降而移除验证模块则会造成更显著的影响特别是在BrowseComp数据集上准确率从18.7%下降到15.4%。这表明验证模块在帮助代理准确评估当前进展和做出明智的资源分配决策方面发挥了关键作用。五、方法论创新从并行到序贯的全面覆盖研究团队不满足于单一的测试方式他们系统地探索了两种主要的测试时缩放范式序贯缩放和并行缩放。这种全面的方法论确保了预算感知方法的普适性和稳健性。序贯缩放就像一个学生反复修改作文直到满意为止。在这种方式下AI代理会在给出初始答案后被要求重新审视问题利用剩余预算进行更深入的探索和验证。研究团队采用了预算强制策略当代理试图给出答案时系统会提醒它还有剩余预算鼓励其进行更全面的信息收集。传统代理在序贯缩放中很快就会遇到性能天花板即使给予更多预算也无法突破。这就像一个已经江郎才尽的作家给他更多时间也写不出更好的内容。相比之下配备预算追踪器的代理能够持续利用额外资源实现性能提升展现出更好的扩展曲线和成本效益比。并行缩放采用了完全不同的策略它就像同时雇佣多个研究员独立工作然后综合所有人的发现得出最佳答案。在这种模式下代理会在固定预算下运行多个独立的推理过程然后通过投票机制或最佳选择策略来确定最终答案。研究团队实现了多种聚合策略来处理并行运行的结果。多数投票就像民主选举选择得票最多的答案作为最终结果。最佳选择策略则更像专家评审由判断模型评估所有候选答案并选出最优解。PassN指标则计算在N次尝试中至少有一次正确的概率这对于评估代理的可靠性特别有价值。并行缩放的实验结果同样证明了预算感知方法的优势。在所有并行运行数量和成本水平下配备预算追踪器的代理都始终保持更优的性能曲线。这种一致性表明预算感知不仅在单一运行中有效在多重运行的复杂场景中同样能够提供显著的改进。特别值得注意的是研究团队发现不同的缩放策略适用于不同的应用场景。序贯缩放更适合对准确性要求极高的场景因为它允许代理在单一问题上投入大量资源进行深度探索。并行缩放则更适合需要快速响应的场景因为它可以通过并行处理来降低单次查询的延迟。六、技术实现细节从理论到实践的桥梁将理论框架转化为实际可用的系统需要解决许多技术挑战。研究团队在实现过程中展现了极高的工程水平和实用主义精神。在模型选择方面研究团队使用了三个代表性的大型语言模型Gemini-2.5-Flash、Gemini-2.5-Pro和Claude-Sonnet-4。这种多模型验证策略确保了结果的普适性就像在不同品牌的汽车上测试新型燃油添加剂一样。为了保证实验的公平性团队对所有模型都采用了相同的参数设置和评估标准。上下文管理是实现过程中的一个重要挑战。AI代理在执行复杂任务时会积累大量的历史信息就像一个侦探的案件档案会越来越厚。为了防止上下文长度失控研究团队采用了几种巧妙的策略每次浏览网页时将内容截断到合理长度只保留最新的工具响应而丢弃历史输出在验证模块中用简洁摘要替换详细轨迹。工具集成方面研究团队使用了Google自定义搜索API进行网络搜索使用Jina.ai和Crawl4AI进行网页内容抓取。这些选择都基于实际部署的考虑确保了实验环境与真实应用场景的一致性。成本计算的精确性对于验证预算感知方法的有效性至关重要。研究团队建立了基于实际API定价的成本模型将搜索和浏览调用的单次费用设定为0.001美元这个数字是基于大量实验数据的统计平均值。令牌消耗则严格按照各个模型提供商的官方定价计算确保了成本分析的真实性和可信度。为了处理实验中的随机性和确保结果的可重现性研究团队采用了严格的实验控制措施。在代理执行过程中使用0.7的温度参数来鼓励探索性行为在最终答案选择和评估时使用0.0的确定性温度以确保结果的一致性。所有实验都进行了多次重复并报告了平均结果。评估方法的设计也体现了研究团队的深思熟虑。他们使用Gemini-2.5-Flash作为判断模型来评估答案的正确性并采用了来自Humans Last Exam项目的评估提示词。这种自动化评估方法不仅提高了评估效率还确保了评估标准的一致性和公正性。说到底这项研究最令人兴奋的地方在于它解决了一个既实用又深刻的问题。在AI技术日益普及的今天如何让AI系统更加经济高效地完成任务不再只是技术问题更是关系到AI技术能否真正普及到普通人生活中的关键因素。研究团队通过简单而巧妙的预算感知机制让AI代理学会了精打细算这不仅提升了技术性能更重要的是为AI技术的大规模应用扫除了经济障碍。这项研究的另一个重要意义在于它为AI代理的设计思路提供了新的启发。传统的AI代理设计往往专注于在无限资源假设下优化性能而这项研究证明了在现实的资源约束下AI代理同样可以表现得非常出色甚至更好。这种设计哲学的转变可能会影响未来AI系统的发展方向推动更多研究者关注实用性和经济性的平衡。归根结底这项研究展示了AI技术发展的一个重要趋势从追求绝对性能向追求性价比的转变。在计算资源有限、部署成本敏感的现实世界中能够智能管理资源的AI系统将具有更大的实用价值和更广阔的应用前景。研究团队的工作为构建这样的智能系统提供了理论基础和实践指导为AI技术的普及和应用开辟了新的道路。有兴趣的读者可以通过arXiv:2511.17006v1查询完整的技术细节和实验数据。QAQ1预算追踪器是如何工作的A预算追踪器就像给AI代理安装了一个实时的预算显示屏让它时刻知道还有多少工具调用次数可以使用。每次代理使用搜索或浏览工具后追踪器会自动更新并显示剩余预算帮助代理根据资源状况调整策略。Q2BATS框架比普通AI代理好在哪里ABATS框架不仅让AI代理知道预算余额还教会了它如何根据预算情况智能调整工作策略。它包含规划和验证两个模块能够动态决定是继续深入探索还是转向新方向就像一个经验丰富的项目经理会根据剩余时间和资源调整计划一样。Q3这项研究对普通用户有什么实际意义A这项研究让AI助手变得更加经济高效意味着企业和个人使用AI服务的成本会降低同时获得更好的效果。就像手机变得更省电但功能更强大一样这种技术进步最终会让AI服务更便宜、更普及普通人也能更容易地享受到高质量的AI助手服务。