网站建设公司组织架构网站开发快递
2026/2/12 16:49:12 网站建设 项目流程
网站建设公司组织架构,网站开发快递,h5是什么意思啊,微信官方网站怎么进入这里写自定义目录标题1 论文信息2 背景3 方法#xff1a;上下文学习/情境学习#xff08;In-Context Learning#xff09;3.1 冻结权重3.2 示例输入3.2 自回归预测#xff08;Autoregressive Prediction#xff09;注意#xff1a;无需训练4 总结1 论文信息 团队#x…这里写自定义目录标题1 论文信息2 背景3 方法上下文学习/情境学习In-Context Learning3.1 冻结权重3.2 示例输入3.2 自回归预测Autoregressive Prediction注意无需训练4 总结1 论文信息团队Google Deepmind时间2025论文链接https://arxiv.org/pdf/2411.04549项目链接https://generative-value-learning.github.io/2 背景任务对任务进度进行评估当前的问题泛化性差传统的价值估计方法通常在少量纯视觉数据上训练缺乏对新任务、新场景的语义和时空理解难以跨任务和跨机器人平台泛化 。数据需求大训练一个能覆盖多种任务的进度估计器需要海量的多样化数据 。应用数据集过滤数据集加权3 方法上下文学习/情境学习In-Context Learning3.1 冻结权重GVL 直接使用预训练好的、冻结的Frozen基础 VLM如 Gemini-1.5-Pro无需针对特定的机器人任务进行任何模型训练或微调No-finetuning 。3.2 示例输入GVL 会在 Prompt 中提供 1 到 2 个完整的成功案例可以是同一个机器人的也可以是人类演示的即few shot。输入内容从一段完整的成功视频包含从开始到结束的全过程中随机抽取 30 帧。处理方式这 30 帧除了第 1 帧固定不动外其余 29 帧的顺序被彻底打乱。标签信息每一帧都会被打上一个对应的进度标签0% 到 100%。目的这相当于告诉 VLM“你看这 30 张图是一次成功的任务虽然顺序乱了但你可以通过观察画面内容比如物体的位置、机械臂的姿态来判断它当时做到了什么程度。”一些细节锚点帧Anchor Point为了让模型理解进度的起点GVL 在打乱帧序列时始终保留原始视频的第一帧不被打乱将其作为参考原点Anchor Point 。这让模型明确了“0% 进度”的具体画面状态。固定的帧采样为了保持输入的一致性GVL 通常会将每个轨迹示例固定子采样为 30 帧 。这种标准化的输入长度有助于 VLM 区分不同的示例块。3.2 自回归预测Autoregressive Prediction在给完示例后Prompt 会接着给出当前你想要评估的目标视频。输入内容同样采样 30 帧且同样是打乱顺序的。任务要求让 VLM 仿照上面的示例为这 30 帧分别输出一个进度百分比。VLM 的反应因为它刚刚看过示例它知道不能根据“第几张图”来猜进度而必须去寻找画面中的语义关键点例如在“把杯子放到托盘”任务中杯子离托盘越近进度就应该越高。注意无需训练由于无需训练它可以直接应用于数据集过滤、成功检测和优势加权回归等多种下游任务 。4 总结GVL 并不是在“训练”一个模型而是在“引导”一个已经具备强大世界知识的模型如 Gemini-1.5-Pro。它通过打乱帧序这一巧妙手段迫使模型放弃简单的时序推断转而深入理解画面中的语义进度而示例则是为这种深层理解提供了必要的“上下文参考” 。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询