2026/4/18 19:27:42
网站建设
项目流程
公司制作网站价格,安徽网页设计公司,沈阳公司网页制作,私人装修接单网站近日#xff0c;IEEE 国际声学、语音与信号处理会议#xff08;ICASSP 2026#xff09;公布了论文录用结果。小米在音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成、长视频理解、联邦学习泛化以及多模态多语言检索等多个 AI 领域的技术方向的研究成果成功入选…近日IEEE 国际声学、语音与信号处理会议ICASSP 2026公布了论文录用结果。小米在音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成、长视频理解、联邦学习泛化以及多模态多语言检索等多个 AI 领域的技术方向的研究成果成功入选。这些成果是小米在音频、语音与信号处理领域持续投入的体现也反映了其在相关技术方向的深入布局。ICASSP 是全球音频领域最具权威性与影响力之一的国际顶级学术会议第一次会议于 1976 年在美国的费城举办至今已有近 50 年的历史。ICASSP 2026 将于今年 5 月在西班牙巴塞罗那举办。论文简介▍《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》论文作者牛亚东、王天资、Heinrich Dinkel、孙兴伟、周嘉豪、李罡、刘继忠、张俊博、栾剑在音频理解领域高质量数据集一直是提升模型性能的关键瓶颈。当前主流数据集普遍面临“规模大但描述简略”或“描述详尽但规模受限”的局限性。为缓解这一矛盾我们推出了 ACAVCaps。该数据集通过创新的自动化管线从多维度、多视角对音频内容进行精细化刻画旨在突破现有数据集在规模与描述粒度上难以兼得的瓶颈。ACAVCaps 构建了一套多级自动化标注框架。该管线利用多个专家模型并行提取原始音频中的声音事件、音乐特征、说话人属性及语音内容等关键元数据。随后引入大语言模型LLM并采用思维链Chain-of-Thought, CoT推理策略将碎片化的结构化信息进行逻辑整合。这种方法实现了从整体感知、语音细节、音乐元素到特定声音事件的全方位描述使标注文本从单一的孤立标签进化为具备逻辑层次和上下文信息的自然语言。ACAVCaps 包含约 470 万条音频-文本对推动音频 AI 从简单的“特征识别”向深度的“语义理解”发展。ACAVCaps 数据集近期将全面开源。▍《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》*表示共同第一作者论文作者许浩然*、李佳泽*、鞠建忠、罗振波联邦学习中的域泛化和类别泛化一直是视觉语言模型如 CLIP高效微调面临的核心挑战。传统方法通常单独处理未见的类别或未见的域例如通过提示调优技术优化类别泛化或域泛化但往往因决策边界混淆、计算资源限制等问题导致在测试数据同时包含未见类别和未见域的复杂场景下性能受限。为此我们提出了一种新颖方法 FedDCGFederated Joint Learning for Domain and Class Generalization通过域分组策略和类特定协作训练机制首次在联邦学习设置下联合解决类别和域泛化问题显著提升了模型在未知环境中的准确性与鲁棒性。FedDCG 框架首先采用域分组策略将客户端数据按域划分并在每个域组内训练独立的类别泛化网络以避免类别和领域决策边界之间的混淆。具体来说方法包含三大核心机制在训练阶段通过类特定域分组协作训练交替优化类别泛化和域解耦知识在推理阶段则基于领域相似性进行引导聚合整合全局和域特定知识。其中类别泛化网络利用交叉注意力机制学习任务相关的提示向量而域解耦训练则通过全局提示和域提示分离通用与特定知识增强泛化能力。在 Office-Home 和 MiniDomainNet 等数据集上的大量实验表明FedDCG 在 ImageNet-R 和 ImageNet-A 等零样本评估基准上均优于当前最先进的基线方法如 FedTPG 和 DiPrompT。例如在Office-Home 数据集上训练、ImageNet-R 测试时FedDCG 的平均准确率达到70.30%比次优方法 DiPrompT 高出近3%在低采样率50%设置下FedDCG 仍保持领先证明了其在数据稀缺场景下的有效性。FedDCG 不仅推动了联邦学习在复杂泛化任务中的前沿还为实际应用如跨域图像分类和隐私保护下的模型部署提供了可行路径。该方法的高鲁棒性和效率使其适用于移动端智能处理等资源受限场景。▍《FUSEMOS: PERCEPTUAL EVALUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》论文作者杨静、王皓宇、潘宁宁、王昭、杨剑轩、黄公平生成音乐的感知评估对于文本到音乐TTM生成系统的发展至关重要。现有自动音乐感知评估方法主要依赖单一音频编码器提取音频特征以预测人类标注的平均意见分数MOS。然而单一编码器在捕捉音乐中复杂结构与细粒度特征方面能力有限。为解决这一问题本文提出 FUSEMOS一个融合 CLAP 与 MERT 两大预训练模型的双编码器架构通过优势互补实现更精准、更贴近人类听觉感知的评估。CLAP 强化音频与文本的语义对齐能力捕捉“文意匹配”MERT 则基于大规模音乐数据自监督训练有效建模旋律、节奏、和声等内在音乐结构特征采用晚期融合策略保留各模态独立表征能力通过专用映射网络在得分层进行融合避免早期特征干扰充分挖掘双路径的互补性同时引入排名感知复合损失函数结合截断回归损失与对比排序损失不仅提升预测精度更显著增强模型对人类偏好相对顺序的理解能力有效缓解传统回归损失对绝对评分偏差的敏感性。在 MusicEval 基准上的实验结果表明FUSEMOS 在均方误差MSE和排序相关性如 Spearman 相关系数等关键指标上均显著优于现有方法验证了其在音乐感知评估中的有效性。▍《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》论文作者Heinrich Dinkel、闫志勇、王天资、王永庆、孙兴伟、牛亚东刘继忠、李罡、张俊博、栾剑GLAP 实现了跨音频领域语音/音乐/环境音与跨语言的音频-文本对齐能支持 RAG 形式的音频搜索。它首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能解决了传统 CLAP 模型领域割裂的问题。在 LibriSpeech英文和AISHELL-2中文语音检索上达到约94%与99%的 recall1同时在 AudioCaps 等声音检索基准保持 SOTA 竞争力。GLAP 具备多语言泛化能力无需目标语种微调即可在 50 种语言的关键词识别KWS中展现 Zero-shot 能力。GLAP 作为预训练模型可直接赋能小米“人车家全生态”中需跨模态理解的场景如复杂声学场景下的鲁棒语音交互、车载多模指令理解、家居异常声音监测、以及音乐/音频内容的跨语言检索与生成。该模型将显著降低下游产品线手机、音箱、汽车、可穿戴设备的音频 AI 研发门槛实现技术栈统一与效果提升。▍《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》论文作者杨晓冉、杨剑轩、郭新月、王皓宇、潘宁宁、黄公平MeanFlow 为多模态音频生成任务构建了高效的基座模型实现了视频同步音效生成V2A场景中推理效率与生成质量的双重突破同时具备跨任务视频生音效/文本生音效的稳定泛化能力。MeanFlow 首次在 V2A 任务中通过平均速度场建模替代传统流匹配Flow Matching模型的瞬时速度建模从根本上解决了多步迭代采样导致的推理速度瓶颈实现推理阶段的一步生成one-step generation。针对无分类器引导CFG应用时易出现的一步生成失真问题创新引入标量重缩放机制通过精准平衡有条件与无条件预测有效缓解失真现象。实验验证表明该模型在实现推理速度 2×-500× 跃升的同时可稳定保持优质的音效输出且确保音视频语义对齐与时间同步性综合性能处于领域领先水平。MeanFlow 核心突破 “效率与质量不可兼得” 的行业痛点通过平均速度场建模与标量重缩放机制的双重优化在实现一步生成、推理速度大幅提升8 秒音频生成仅需 0.056 秒的同时精准保障音效生成质量SOTA、音频分布匹配及音视频同步性TOP2。基于多模态条件联合训练该优势可自然延伸至文本生音效任务无需额外微调适配即可实现音效稳定输出实现 “提效不损质、多场景适配” 的核心价值。MeanFlow 作为高效多模态生成的核心支柱可直接赋能需实时音视频生成的各类实际场景如影视后期无声视频高效配音、短视频平台智能音效生成、虚拟形象实时交互、智能交互设备文本指令音效输出等。该模型将显著降低下游音视频创作与智能交互产品的研发门槛推动实时音效生成技术在内容创作、人机交互等领域的规模化落地实现技术效率与应用体验的双重提升。▍《THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING》*中国人民大学-小米合作项目论文作者谭文辉、宋睿华、李佳泽、鞠建忠、罗振波长视频理解一直是多模态大语言模型MLLMs面临的核心挑战。传统方法通常采用均匀帧采样或单一查询驱动的关键帧选择策略但往往因计算资源限制、语义覆盖不全面等问题导致对长视频内容的理解效果受限。为此小米大模型团队与中国人民大学高瓴人工智能学院联合提出了一种无需训练的帧选择框架 Think-Clip-SampleTCS通过多查询推理Multi-Query Reasoning和片段级慢快采样Clip-level Slow-Fast Sampling两大核心机制显著提升了 MLLMs 在长视频问答任务中的准确性与效率。TCS 框架首先通过多查询推理模块利用 MLLM 从问题中自动生成多个视角的查询如物体、场景、动作等替代传统单一问题直接与帧匹配的方式从而更全面地捕捉视频中的语义信息。随后基于 CLIP 模型计算各查询与视频帧的相似度并通过聚合多视角得分增强帧选择的多样性与相关性。在帧采样阶段TCS 提出片段级慢快采样策略将总帧预算划分为“慢采样”与“快采样”两部分慢采样集中于高相似度片段进行密集采样以捕捉局部细节快采样则从非高相关区域均匀抽取部分帧保持全局上下文覆盖。该策略有效避免了传统 top-k 采样导致的语义重叠与信息遗漏问题实现了细节与整体之间的平衡。在 MLVU、LongVideoBench和VideoMME 三大主流长视频理解基准上的实验表明TCS 在 Qwen2-VL-7B 与 MiMo-VL-7B 等主流 MLLM 基础上均取得显著效果提升其中在 MLVU 数据集上最高提升达6.9%且在保持相当性能的前提下推理时间降低超过50%。作为一项无需训练即插即用的增强框架TCS 不仅显著推进了 MLLM 在长视频场景下的理解能力也为资源受限的实际应用如移动端视频分析、短视频智能处理等提供了可行的技术路径。▍《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIEVAL VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》论文作者张馨元张丽娜陈立崧刘光耀聂帅许家铭史润宇黄英张国全在传统检索中“找图、找文、意图理解” 通常是三个独立训练的模型。意图理解模型先解析查询将意图分别送入图像检索和文本检索模型这会导致同一查询被重复编码检索且语义空间未对齐从而增加内存占用、降低运行速度并影响检索准确性。本研究提出了一种统的一多任务学习框架将“找图、找文、意图理解” 这三个任务整合到两个模型一个架构中在该框架下文本编码器同时对齐图像和文本的语义空间并通过跨注意力机制与 NLU 模型进行语义交互。通过这一设计一个模型就可以同时完成找文与找图任务同时通过与 NLU 模型的跨注意力交互实现意图感知和语义增强节省模型数量、降低系统内存占用并增强模型间的语义能力。此外该框架支持多语言输入实现跨模态、跨语言的高效语义对齐为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。该框架在找图与找文任务上均达到或超过现有最优方法在多语言测试中XTD10 数据集平均召回率达 93.3%Multi30K 数据集达 94.8%均超越 Jina-CLIP-v2 等主流模型 1.1%–2.7%在 COCO-QLTI 文本检索数据集上平均性能达 85.1%较原始文本编码器提升 48.4%。本方法在降低模型复杂度和存储开销的同时验证了其在工业级多模态检索场景中的实用性与可扩展性。-这些研究成果是小米在 AI 技术领域持续投入的缩影展现了从理论创新到应用落地的扎实能力。小米将继续把创新成果系统性地融入“人车家全生态”场景通过体验革新切实推动技术进步普惠用户。小米期待与全球产学研界深化合作共同探索智能技术的发展边界为行业创新和用户体验提升贡献更多价值。END