帝国cms手机网站制作西安凤城二路网站建设
2026/4/18 19:34:14 网站建设 项目流程
帝国cms手机网站制作,西安凤城二路网站建设,免费晋江网站建设,菏泽网站推广作者#xff1a;岳元浩(顾城)、汪诚愚(熊兮)、黄俊(临在) 背景 近年来#xff0c;多模态人工智能技术迅猛发展#xff0c;推动了视觉、语言、语音等多种模态信息的深度融合与理解。尤其在多模态深度推理任务中#xff0c; GPT-4V 等前沿模型通过模拟人类的链式思维过程岳元浩(顾城)、汪诚愚(熊兮)、黄俊(临在)背景近年来多模态人工智能技术迅猛发展推动了视觉、语言、语音等多种模态信息的深度融合与理解。尤其在多模态深度推理任务中 GPT-4V 等前沿模型通过模拟人类的链式思维过程展现出强大的跨模态推理能力。然而当前的多模态大模型在实际应用中仍面临两个关键问题首先能力较强的SOTA模型往往参数规模庞大、计算资源消耗高导致部署成本高昂难以在资源受限的场景中落地。其次现有开源社区缺乏大规模高质量的多模态长思考数据集致使多模态推理模型的训练过程难以复现也制约了开源社区多模态推理模型的性能提升。基于阿里云人工智能平台PAI的蒸馏工具包 EasyDistillhttps://github.com/modelscope/easydistill我们提出了一套面向多模态深度推理的蒸馏数据构建框架并发布了首个支持大规模多模态思维链蒸馏的高质量数据集 OmniThoughtV。OmniThoughtV不仅填补了开源社区在多模态复杂推理数据方面的空白还通过一套透明、可复现的数据蒸馏机制实现了对多模态思维链的高效提取与结构化组织。该数据集融合了精细化标注、多阶段过滤机制与针对多模态推理优化的蒸馏策略显著提升了小模型在保持逻辑连贯性的同时降低推理冗余、加快响应速度并增强了在开放场景中的鲁棒性与泛化能力。特别地基于蒸馏的OmniThoughtV数据集得到的Qwen3-VL-4B小模型在下游任务上接近或超越了参数量为其两倍的基座模型Qwen3-VL-8B实现了参数量50%的压缩效果其结果如下模型/评测数据集4B模型蒸馏前4B模型蒸馏后8B模型蒸馏前AI2D0.71340.81640.8096MMMU ProStandard0.41330.46940.4688MMMUval0.56670.60330.6000MathVista0.70700.74000.7250MathVersetestmini0.36400.53150.3820MMBench0.82040.82730.8256本文将重点解析基于 EasyDistill 框架构建 OmniThoughtV 数据集的核心方法评测其在多模态深度推理任务中的实际效果并介绍该数据集及配套蒸馏模型在开源社区和 PAI 平台上的使用方式和各个场景的应用为推动开源多模态大模型迈向人类水平的系统性思考能力提供坚实基础。OmniThoughtV数据集构建开源社区现有的多模态指令微调数据集往往只包含简单直接的回答缺乏复杂的推理过程难以支持模型学习如何“看图深度思考”。例如在回答“免费试用用户的总数是多少”这类问题时模型不仅需要定位图表中的关键视觉元素还需理解其语义、排除干扰信息并逐步推导出结论。然而现有数据集通常仅提供最终答案缺失中间可解释的推理链。为弥补这一空白我们构建了 OmniThoughtV, 首个大规模、面向多模态深度推理的高质量长思考数据集。我们的模型思考不仅涵盖数学、逻辑等推理还包括对图像中物体、空间等信息的理解与推理。多模态数据集示例问题免费试用用户的总数是多少原回答标注免费试用用户的总数在图表开头的“Total Free Trial Users”总免费试用用户数下方标明。答案10,000长思考标注think为了确定免费试用用户的总数我需要查看漏斗图中标有“Total Free Trial Users”总免费试用用户数的第一个柱状条。该柱状条代表了开始免费试用的初始用户群体。从图表中可以看出- 第一个柱状条的高度对应 10,000 名用户。- 该柱状条上的标签明确标示为“10,000”表明这是免费试用用户的起始人数。无需进一步计算因为图表已直接提供了免费试用用户的总数。因此免费试用用户的总数为 10,000。/thinkanswer10,000/answer我们从 HuggingFace 的 FineVision 数据集中抽取了 180 万条英文图文指令全面覆盖其全部子数据集与数据来源从而构建了一个多样化、高覆盖度的初始多模态问题池。在此基础上我们利用当前性能领先的多模态大模型 Qwen3-VL-Max为每一条样本生成结构化、可解释、多步骤的长思考推理过程涵盖视觉信息定位、跨模态语义对齐、逻辑推导与答案验证等关键认知环节。其中我们使用如下Prompt模版从 Qwen3-VL-Max蒸馏得到上述长思考推理过程SYSTEM_PROMPTYou are a helpful assistant to think step by step. Provide your reasoning steps within think/think tags and give your final answer within answer/answer tags. QUERYf image ### Question {question} ### Output Format (Strictly Enforced) think Clearly explain your reasoning step by step. Describe how you arrived at the conclusion. The reasoning process MUST BE enclosed within think /think tags. /think answer Your final answer to the users question. /answer 最终我们构建了一个包含约 0.8B Tokens 的高质量多模态长思考蒸馏数据集为训练具备深度推理能力的小型多模态模型奠定了坚实的数据基础。该数据集不仅规模庞大更在推理深度、逻辑连贯性与任务多样性等方面显著超越现有开源多模态指令微调数据集。OmniThoughtV思维链评估指标在完成对 180 万条英文图文指令的蒸馏标注后我们对生成的长思考数据进行了系统性质量清洗以确保数据的难度和标注准确性。数据清洗与过滤主要基于两个维度规则过滤和模型打分。 在规则层面我们设计了三类启发式规则除了剔除不符合...\think...\answer思考链格式的数据外我们还过滤掉模型回答长度过长的数据通常这类数据对应极为复杂的问题模型在思考过程中难以找到有效答案。此外我们还剔除了回答中出现模型自我反复纠错的样本例如包含“Wait, …..”等自我纠错模板的数据这类数据通常也是极难问题模型无法做出准确推理。 在模型打分方面我们使用 Qwen3-VL-Flash 对数据进行打分分别标注了数据的质量、难度以及开放式任务标签具体定义如下分数级别描述难度评分1非常简单明显存在的物体、简单的颜色/形状识别2简单清晰可见物品的基本计数、简单的空间关系3中等需要简短推理、识别常见动作或属性4困难多步推理、细微的视觉线索、或不常见的概念5非常困难抽象推理、复杂的场景理解、或模糊不清的上下文质量评分1非常低完全错误或无关的回答2低大部分错误仅含少量正确元素3中部分正确但遗漏关键细节或包含错误4高基本正确仅有轻微不准确或遗漏5非常高完全准确、精确且完整的回答此外模型会为每个问题分配 3 到 6 个简洁、相关、开放式任务标签描述问题的性质例如“counting”、“color”、“spatial”、“action”、“object”、“attribute”、“reasoning”、“scene”、“text”、“math” 等。为了保证语义的清晰性我们仅使用常见、通用的标签。OmniThoughtV数据集的标注统计结果如下可以看出绝大多数OmniThoughtV数据集中的思维链质量极高在难度上明显呈现近似正态分布。我们进一步使用词云统计了任务标签从数据标签统计可以看出该数据集覆盖广泛的领域主题和任务类型包括但不限于视觉理解如对象识别object、属性解析attribute、场景理解scene空间推理如位置关系spatial、position、layout、方向direction与坐标coordinate图表解读涵盖多种可视化形式chart、graph、table、bar chart、pie chart、scatter plot及其元信息axis、legend、label、caption逻辑推理包括计数count、比较comparison、数学计算math、algebra、geometry以及统计概念percentage、ratio、average领域知识涉及科学physics、chemistry、biology、技术code、algorithm、electronics、人文history、politics、literature等多个领域反思能力强调事实核查verification、fact-check、误差识别error、discrepancy与细节敏感性precision、detail。实验效果评测为了系统性地寻找最优训练超参数我们采用不同的超参数组合对 Qwen2.5-VL-3B-Instruct 模型在视觉推理任务上的表现进行了训练与评测。首先我们在 MMMU_pro_vision Benchmark 上开展了一系列微调超参数的实验。该基准能够全面、深入地衡量模型在复杂图像理解与多步逻辑推理方面的综合能力。在未进行任何微调的情况下原始的 Qwen2.5-VL-3B-Instruct 模型在该基准上的得分仅为 0.2130。我们使用的Prompt模版如下图所示。SYSTEM_PROMPTYou are a helpful assistant to think step by step. Provide your reasoning steps within thinking/thinking tags and give your final answer within answer/answer tags. Final answer requirement: Answer with the option letter from the given choices directly. QUERY_PROMPTf ### Question {question} ### Output Format (Strictly Enforced) thinking Clearly explain your reasoning step by step. Describe how you arrived at the conclusion. The reasoning process MUST BE enclosed within thinking /thinking tags. /thinking answer Your final answer to the users question. Answer with the option letter from the given choices directly. /answer 随后我们围绕学习率和训练轮次Epoch这两个核心超参数设计了多组对比实验以探索它们对模型最终性能的影响。具体而言我们测试了四种不同的学习率5e-6、1e-5、2e-5、4e-5并分别在 1 至 5 个训练轮次下观察模型得分的变化趋势。实验结果显示不同超参数组合对模型性能有着显著影响例如当学习率为 5e-6且训练 4 个 Epoch 时模型取得了 0.3220 的最佳分数而较高的学习率如 4e-5则普遍导致性能下降表明过高的学习率可能不利于模型稳定收敛。最终我们选用了 5e-6 的学习率训练 4 个 Epoch 作为后续实验的微调训练参数。学习率/Epoch1 Epoch2 Epochs3 Epochs4 Epochs5 Epochs5e-60.28150.29360.31160.32200.30871e-50.29310.30170.30930.31040.30982e-50.27220.29190.29770.29590.30004e-50.25660.25150.26710.26880.2798为了深入探究数据筛选策略对模型微调效果的影响我们系统性地测试了“质量”Quality与“难度”Difficulty指标的数据过滤条件并在前述实验的最佳超参数设置下评估其训练性能。每组过滤条件对应的微调数据集均统一为 10 万条。实验结果表明单纯依赖标注质量指标进行过滤如仅保留 Quality ≥ 5 的数据反而会导致模型性能轻微下降得分 0.2948甚至低于未经过过滤的原始数据集得分 0.3093。这说明高标注质量数据未必等同于高有效性有时可能因过于简单或同质化而削弱模型的学习能力。 相反当引入“难度”指标作为核心过滤条件时模型表现显著提升在仅要求 Difficulty ≥ 4 的条件下模型得分跃升至 0.3156而将高质量与高难度相结合Quality ≥ 5 且 Difficulty ≥ 4时模型得分也达到了 0.3139同样优于无过滤基线。由此验证了我们提出的“难度”与“标注质量”联合过滤的有效性。同时也得出结论在当前任务场景下以“难度”为核心的过滤机制比单纯依赖“标注质量”的过滤策略更为有效因为它能更精准地筛选出既能挑战模型、又能促进其推理能力提升的关键样本从而更高效地驱动模型性能的提升。过滤条件分数无过滤0.3093Quality5; Difficulty00.2948Quality0; Difficulty40.3156Quality5; Difficulty40.3139我们基于 Quality ≥ 5Difficulty ≥ 4 的过滤条件筛选得到约 50 万条数据并对 Qwen3-VL 2B、4B、8B 版本进行了微调。我们使用 LMMs-Eval 框架进行评测。由于不同 Prompt 评测模板会对测评结果产生影响我们在评测过程中统一固定了一套推理 Prompt。实验结果如下表所示。 我们成功验证了数据集的有效性通过构建了约 50 万条高质量、高难度的训练数据以此微调 Qwen3-VL 系列不同规模的模型2B、4B、8B的实验数据显示无论是在通用视觉理解能力 benchmark如 AI2D、MMStar还是在对推理能力更敏感的 benchmark如 MMMU_Pro_standard、MMMU_Pro_vision、 MathVerse、 MathVision上所有经过微调的模型均实现了性能提升在强调推理能力的 benchmark 上提升尤为显著。这充分证明了高质量数据的蒸馏、筛选与规模扩展对模型推理能力提升的有效性。综上而言OmniThoughtV 数据集的构建流程不仅验证了长思考思维链数据不仅能提升模型在视觉推理等任务上的推理能力也验证了模型“看图深度思考”能力的提升也能提高模型的通用视觉理解能力。OmniThoughtV 数据集很好弥补了开源社区中大规模多模态长思考数据集的匮乏也通过系统化的数据工程提供了全流程清晰、可复现的工具和技术路线。资源下载和使用在EasyDistill框架的使用教程通过使用阿里云人工智能平台PAI推出的开源工具包EasyDistill 用户可以轻松实现实现多模态思维链数据的蒸馏、对思维链数据打分。1. 克隆代码库并安装相关依赖git clone https://github.com/modelscope/easydistill cd EasyDistill pip install -r requirements.txt2. 可以使用各种配置文件生成训练数据以思维链数据生成为例配置文件如下{ job_type: mmkd_black_box_api, dataset: { instruction_path: data/mllm_demo.json, labeled_path: data/mllm_demo_distill.json, seed: 42 }, inference:{ base_url: ENDPOINT, api_key: TOKEN, system_prompt : You are a helpful assistant., max_new_tokens: 512 }, models: { student: student/Qwen/Qwen3-VL-2B-Instruct/ }, training: { output_dir: ./result/, num_train_epochs: 3, per_device_train_batch_size: 1, gradient_accumulation_steps: 8, max_length: 512, save_steps: 1000, logging_steps: 1, learning_rate: 2e-5, weight_decay: 0.05, warmup_ratio: 0.1, lr_scheduler_type: cosine } }3. 完成思维链数据生成后可以使用思维链评价打分功能配置文件如下{ job_type: mmcot_eval_api, dataset: { input_path: cot_input.json, output_path: cot_output.json }, inference:{ base_url: https://dashscope.aliyuncs.com/compatible-mode/v1, api_key: YOUR KEY, max_new_tokens: 8196 } }运行下面的命令即可完成对cot数据质量的评价打分export JUDGE_MODELqwen3-vl-plus easydistill --config mmcot_eval_api.json详细用法可以参考 https://github.com/modelscope/easydistill/blob/main/docs/CoT_Eval.md从HuggingFace/ModelScope下载资源我们的公开的数据约180万条原始数据集和50万条筛选后的数据集。每一条数据都带有评分。筛选后的数据集是难度大于等于4分质量大于等于5分的数据。数据集中的图像采用base64编码储存。数据集HuggingFaceModelScopeOmmiThoughtV_Raw_1.8Mhttps://huggingface.co/datasets/alibaba-pai/OmmiThoughtV_Raw_1.8Mhttps://modelscope.cn/datasets/platformofai/OmniThoughtV_Raw_1.8MOmniThoughtV_Filter_0.5Mhttps://huggingface.co/datasets/alibaba-pai/OmniThoughtV_Filter_0.5Mhttps://modelscope.cn/datasets/platformofai/OmniThoughtV_Filter_0.5M可以参考以下代码读取数据集from datasets import load_dataset data_path...YOUR_PATH_To.../OmmiThoughtV_Raw_1.8M/ OmmiThoughtVload_dataset(data_path, streamingTrue)场景化应用除了典型的多模态任务我们提出的蒸馏方法可以有效应用于各种实际场景中以下我们给出多个多模态深度思考任务的典型应用。自动驾驶问题你需要右转请基于当前图像中的道路环境和交通状况请分析并规划你自动驾驶车辆下一步的最优驾驶策略。thinking 1. **评估道路环境**图像显示了一条多车道的城市道路交通繁忙前方有大型绿色自卸卡车和一辆白色轿车。道路两侧有高层建筑表明这是一个密集的城市区域。道路由黄色隔离栏分隔表明车流受到管控。 2. **识别当前车道及交通流**车辆位于中间车道该车道似乎是直行车道。图像中未见明显的右转车道或转弯信号指示因此右转并不立即可行。相邻车道有大型卡车表明转弯时需谨慎操作以避免碰撞。 3. **评估右转可行性**前方道路看起来是直行的未见明显的右转车道或转弯信号标志。相邻车道的大型卡车表明若要转弯需要小心操作以避免碰撞。黄色隔离栏表明道路为分隔式设计转弯可能需要驶离当前车道。 4. **考虑交通法规与安全性**图像中显示了一个“40”的限速标志表明限速为40公里/小时。大型卡车的存在提示车辆应保持安全车距避免突然变道或转向。黄色隔离栏进一步说明道路为分隔设计转弯可能需提前变道。 5. **规划最优驾驶策略**基于当前的道路环境和交通状况作为自动驾驶车辆下一步的最优驾驶策略应为 - **保持当前车道**继续直行直到到达指定的右转车道或交叉路口。 - **持续监测交通状况**确保有足够空间安全完成右转。 - **利用车辆的传感器和摄像头**探测周围环境中可能存在的障碍物或危险。 - **遵守交通法规**与其他车辆保持安全距离。 - **仅在安全且合法的情况下执行右转**确保不阻碍其他车辆正常通行。 6. **结论**作为自动驾驶车辆下一步的最优驾驶策略是保持当前车道继续直行直至到达指定的右转车道或交叉路口同时密切观察交通状况确保有充足空间安全完成右转。 /thinking answer 保持当前车道继续直行直至到达指定的右转车道或交叉路口同时监测交通状况并确保有足够空间安全完成右转。 /answer文物讲解假如你是博物馆讲解员分析此陶器历史背景。thinking 第一步分析该陶器的视觉特征。器物拥有细长的颈部和圆鼓的腹部这种器型在东亚陶瓷传统中十分常见。器表装饰有风格化的鱼纹和花卉图案表明其用途更偏向象征性或装饰性而非日常实用。 第二步考察釉面与表面质感。釉色呈柔和的土色调略带斑驳或砂质感这表明它很可能采用天然陶土并以低温或半烧制工艺制成——这在古代朝鲜陶瓷中颇为典型。釉面呈灰蓝色调说明使用了含铁量较高的陶土并采用了还原焰烧制工艺这种技法在朝鲜陶器中常用于营造含蓄而典雅的视觉效果。 第三步推测历史时期。具备此类特征鱼纹、砂质感、灰蓝釉的陶器与高丽王朝918–1392年尤其是晚期12至13世纪的朝鲜陶器风格相符。这一时期朝鲜陶工发展出独具特色的风格包括著名的“粉青沙器”buncheong或powder-blue ware常饰以精巧的手绘纹样和柔和半透明的釉面。鱼纹可能象征富足、多产或与自然和谐共处这些主题在朝鲜艺术中十分常见。 第四步考虑文化背景。此器物的设计与工艺表明它很可能用于礼仪或祭祀场合例如盛装酒或水也可能是贵族家庭中的陈设品。鱼与花卉元素的结合反映了当时朝鲜社会崇尚平衡、和谐以及自然崇拜的文化价值观。 第五步结合博物馆语境。该文物被置于玻璃展柜中陈列说明其具有重要的历史与文化价值。其保存状态与展示方式表明它是朝鲜丰富陶瓷遗产中的一件珍贵代表很可能制作于高丽王朝晚期。 结论综合其视觉特征与历史背景这件陶器很可能是一件高丽王朝晚期的作品采用传统朝鲜制陶技艺制作而成并饰有象征性的纹样体现了当时朝鲜陶工在陶瓷艺术上的高度成就与文化内涵。 /thinking answer 这件陶器很可能源自朝鲜高丽王朝晚期918–1392年该时期以精致的陶瓷艺术著称。器物细颈鼓腹的造型辅以风格化的鱼纹与花卉图案表明其用途偏向礼仪性或装饰性。其砂质肌理与灰蓝色釉面反映出当时朝鲜陶工采用含铁陶土及传统还原焰烧制工艺的典型技法。鱼纹可能象征富足或与自然的和谐体现了当时的主流文化价值观。此器被博物馆珍藏并展出彰显了它作为朝鲜陶瓷艺术瑰宝的重要历史与文化意义。 /answer自动商品审核这是用户发来的商品图并申请了自动退款请审核是否满足退款要求。thinking 图片显示了一盒橙子其中一个橙子表面明显长有霉菌灰绿色斑块。水果上出现霉菌是变质的明确标志通常被视为缺陷会使该产品不符合新鲜且安全食用的标准。 大多数线上或零售购买的标准退款政策都包含针对变质、损坏或与描述不符商品的条款。由于霉菌清晰可见影响了产品的质量和安全性因此符合典型消费者保护政策下的退款条件。 因此应批准退款请求。 /thinking answer 是的退款条件已满足因为橙子表面可见霉菌表明其已变质不再符合新鲜且安全食用的标准。 /answer小结本文介绍了OmniThoughtV数据集这是首个开源的大规模多模态长思考蒸馏数据集。我们完整构建了一套透明、可复现、高质量的多模态数据蒸馏与筛选流程并系统验证了其在提升多模态大模型视觉推理能力方面的关键作用。我们通过严谨的消融实验首次明确指出“难度”指标在数据筛选中的核心价值相较于单纯依赖标注质量评分引入高难度样本能更有效地驱动模型学习复杂推理逻辑从而显著提升泛化性能。基于这一发现我们设计了完整的数据过滤标准从原始数据集中精准提炼出约50万条兼具挑战性与代表性的训练样本并成功提升了Qwen3-VL系列的性能表现。实验结果表明该数据流程不仅使各模型在多个权威评测集上实现稳定且显著的能力跃升更展现出良好的模型规模扩展性。本工作填补了当前开源社区在结构化、可复现、面向推理能力提升的多模态数据蒸馏上的空白在未来我们会继续深入探索大模型的蒸馏和训练技术推动大模型在各个场景的落地。参考工作EasyDistill系列相关论文Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprintYuanjie Lyu,Chengyu Wang,Jun Huang,Tong Xu. From Correction to Mastery: Reinforced Distillation of Large Language Model Agents. arXiv preprintChengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang.EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models.EMNLP 2025Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Thinking with DistilQwen: A Tale of Four Distilled Reasoning and Reward Model Series.EMNLP 2025Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Enhancing Reasoning Abilities of Small LLMs with Cognitive Alignment.EMNLP 2025Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models.ACL 2025Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud.COLING 2025Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning.EMNLP 2024

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询