软装公司网站建设安阳网约车
2026/5/24 0:09:18 网站建设 项目流程
软装公司网站建设,安阳网约车,网站建设佛山拓客科技公司,上海网站制作公司是什么研究团队提出了Video-Browser#xff0c;并构建了全新的基准测试Video-BrowseComp。 在当前的AI Research浪潮中#xff0c;Autonomous Agents已经改变了我们获取信息的方式——从被动接收到主动检索。 然而#xff0c;现有的Agent似乎都有一个共同的处理盲区#xff1a;…研究团队提出了Video-Browser并构建了全新的基准测试Video-BrowseComp。在当前的AI Research浪潮中Autonomous Agents已经改变了我们获取信息的方式——从被动接收到主动检索。然而现有的Agent似乎都有一个共同的处理盲区视频。视频是互联网上信息密度最高的模态。但现有的AI要么是阅读理解高手处理文本要么只能盯着被喂到嘴边的一小段视频片段做问答。真正的Agentic Video Browsing应该是什么样的它应该像人类一样在海量视频中主动搜索通过标题筛选快速拖动进度条定位最后只在关键时刻“全神贯注”地观看细节。基于这个理念研究团队提出了Video-Browser并构建了全新的基准测试Video-BrowseComp。为什么现在的Agent “看”不好视频在开放世界的视频搜索中现有的方法面临着一个两难的困境Modality Gap vs. Context Explosion1. 直接视觉推理Direct Visual Inferencee.g.RAG简单粗暴地把视频帧流喂给MLLM。效果好但贵到离谱。长视频会导致Context瞬间爆炸不仅推理慢还受限于上下文窗口。2. 文本摘要Summarization先把视频转成文本摘要再让Agent读文本。省钱了但细节丢了。很多视觉细节如“那只笔是什么颜色的”无法被通用的文本摘要捕捉。我们需要一种既能像文本搜索一样高效又能像视觉推理一样精准的新范式。方法Video-Browser与Pyramidal Perception为了解决上述问题研究团队提出了一种名为Pyramidal Perception金字塔感知的架构。正如其名研究团队将视频处理过程看作一个金字塔由底向上层层递进计算量逐级增加但处理的数据量逐级减少。整个Video-Browser Agent包含三个核心组件Planner规划器、Watcher观察者和Analyst分析师。其中最核心的Watcher采用了三层金字塔机制Stage I: Semantic Filter语义过滤-塔底面对海量的搜索结果不需要打开每一个视频。Agent首先利用LLM分析视频的元数据标题、简介等以“零视觉成本”快速剔除无关内容只保留最有希望的候选者。Stage II: Sparse Localization稀疏定位-塔身对于入选的视频不需要从头看到尾。Agent结合全量字幕和稀疏采样帧快速扫描视频结构定位出可能包含答案的时间窗口Temporal Proposals。Stage III: Zoom-in聚焦精读-塔尖这是最关键的一步。在锁定的极短时间窗口内进行高帧率解码调用强大的MLLM进行精细的视觉推理。将最昂贵的计算资源只花在最有价值的几秒钟上。基准测试Video-BrowseComp为了验证Agent的能力研究团队发现现有的video benchmark往往陷入了被动感知的误区给模型一段剪好的视频问它里面发生了什么。但这并不是真实的Agent。在真实世界中Agent不会有人把视频喂到嘴边它们必须像人类一样在开放的互联网海洋中主动寻找线索。为了衡量这种真正的Agentic能力研究团队构建了Video-BrowseComp。”这是一个要求Agent必须具备Mandatory Video Dependency强制视频依赖的基准测试。其设计原则是“Hard-to-FindEasy-to-Verify”。研究团队设计了三个难度等级Level 1 显式检索有明确的关键词考查定位能力。Level 2 隐式检索没有直接关键词需要理解描述并进行推理。Level 3 多源推理最难级别。答案分散在多个视频中需要Agent像侦探一样拼凑线索。实验结果更准更省研究团队在Video-BrowseComp上对比了GPT-5.2Gemini-1.5-Pro等SOTA模型包括Search-Augmented版本。结果显示性能提升Video-Browser 基于GPT-5.2达到了26.19%的准确率相比直接视觉推理基线提升了37.5%。效率飞跃得益于金字塔感知研究团队的Token消耗降低了58.3%。打破Deep Research垄断研究团队的方法在视频任务上甚至优于OpenAI的o4-mini-deep-research证明了在视频领域高效的视觉感知策略的优异性。Case Study眼见为实来看一个经典的例子Benchmark Level 3问题在电影《白日梦想家》中主角Walter Mitty胸口口袋里有一支笔贯穿全片笔盖的出现暗示了他内心的渴望。请问这支笔是什么颜色的❌直接视觉推理Direct Visual Inference看了所有帧但由于信息过载模型声称“没看到笔” 。❌文本摘要Summarization通过将电影转成文本但文本中没有提到“笔的颜色”这种细节模型回答“未提及” 。✅Video-Browser Ours成功定位到特写镜头Zoom-in模式下清晰识别出了红色的笔盖回答正确总结与展望Video-Browser是迈向Agentic Open-web Video Browsing的重要一步。研究团队通过模拟人类的认知过程——先浏览、再定位、后精读成功解决了视频搜索中精度与成本的矛盾。所有的代码、数据和Benchmark现已开源研究团队希望该工作能为社区提供一个新的研究支点。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询