2026/4/8 21:26:45
网站建设
项目流程
网站建设 服务流程,专业做网站哪个公司好,免费做字体的网站,天门网站设计本文系统综述了细粒度多模态大模型(FG-MLLMs)的研究进展。针对多模态大模型在精细感知场景中的局限性#xff0c;文章建立了类别、空间和时间三维分类体系#xff0c;分析了模型架构局限、数据稀缺和精度效率矛盾三大挑战。未来研究将聚焦于精度-泛化-效率权衡、知识增强、理…本文系统综述了细粒度多模态大模型(FG-MLLMs)的研究进展。针对多模态大模型在精细感知场景中的局限性文章建立了类别、空间和时间三维分类体系分析了模型架构局限、数据稀缺和精度效率矛盾三大挑战。未来研究将聚焦于精度-泛化-效率权衡、知识增强、理解与生成统一等方向推动细粒度多模态大模型在自动驾驶、医疗影像等高精度需求领域的应用。论文题目A Survey on Fine-Grained Multimodal Large Language Models论文链接https://cje.ejournal.org.cn/article/doi/10.23919/cje.2025.00.336实验室网址https://www.wict.pku.edu.cn/mipl摘要尽管多模态大模型在视觉问答、图像描述等通用视觉语言任务中表现出强大性能但在需要精细感知的场景中其能力仍存在严重局限性。这种细粒度感知能力的缺失极大制约了多模态大模型在自动驾驶、具身智能、医疗影像、工业制造等领域的广泛应用。然而当前细粒度多模态大模型Fine-Grained Multimodal Large Language ModelsFG-MLLMs的研究尚处于碎片化状态缺乏统一的定义与标准。为此本文建立了一套涵盖类别Taxonomic、空间Spatial和时间Temporal三个维度的细粒度多模态大模型技术分类体系并进一步分析了多模态大模型细粒度感知能力弱的三大原因1模型架构在细粒度特征建模上的不足、2高质量细粒度标注数据稀缺、3细粒度感知与计算效率之间的矛盾最后探讨了细粒度多模态大模型未来的发展方向。1背景1.1 从“粗粒度”到“细粒度”的瓶颈尽管GPT、Gemini以及LLaVA等多模态大模型在视觉问答、图像描述等通用视觉语言任务上取得了显著进展但其核心能力主要来源于弱监督预训练和微调还停留在粗粒度感知层面缺乏细粒度感知能力。例如在Stanford Cars细粒度车辆分类任务上GPT-4和Claude3的准确率仅为58.2%和45.1%显著低于CLIP-L模型的77.5%在细粒度空间感知任务MME-RealWorld及细粒度时序推理任务TemporalBench中GPT、Gemini等最新闭源大模型的表现也远低于人类水平。这种细粒度感知能力的缺失极大制约了MLLMs在自动驾驶、具身智能、医疗影像、工业制造等对精度要求极高的领域的应用。1.2 细粒度多模态大模型FG-MLLMs定义图1 细粒度多模态大模型分类体系当前细粒度多模态大模型的研究碎片化缺乏统一定义。因此本文从人类视觉系统的“双流假设”Two-Streams Hypothesis出发将视觉感知分解为“识别对象”、“确定位置”与“跟踪变化”三个基础阶段并据此建立了细粒度多模态大模型的三维分类体系如图1所示类别细粒度Taxonomic FG-MLLMs区分同一大类下高度相似的不同子类别。例如不仅识别出“鸟”更能区分“大冠蝇霸鹟”与“阿卡迪亚霸鹟”等具体鸟类物种。空间细粒度Spatial FG-MLLMs在高分辨率输入中对微小、密集或语义复杂的区域进行定位与识别。不仅检测显著物体还能精准定位复杂场景中的特定目标或理解精细的局部细节。时间细粒度Temporal FG-MLLMs在视频中定位和理解事件或动作不仅生成视频摘要还能精确定位动作的时间边界并将复杂动作分解为子动作进行时序分析。1.3 大模型细粒度感知能力弱的三大原因模型架构的局限现有视觉编码器如CLIP仅学习图像级对齐难以捕捉细粒度特征且基于图像分块Patch的Tokenization机制存在视觉信息损失。标注数据的稀缺细粒度视觉感知任务如密集对象描述、动作时序定位需要成本极高的专家级标注导致高质量训练数据稀缺同时适配生成式大模型的细粒度评测基准也尚未成熟。精度效率的矛盾细粒度感知依赖高分辨率输入或长Token序列计算成本高昂而视觉输入压缩往往导致细粒度信息丢失。2类别细粒度大模型图2 类别细粒度大模型方法框架在图像分类任务上现有多模态大模型具备强大的开放域通用能力能够识别出几乎所有粗粒度类别但在细粒度分类任务上难以区分视觉上高度相似的子类别如不同鸟类物种、汽车与飞机型号等。针对上述问题依据“是否引入除多模态大模型本身之外的其他模型”现有研究可划分为两大类单模型系统Single-model System与多模型系统Multi-model System如图2所示。前者致力于挖掘多模态大模型自身的能力后者则利用外部模型进行优势互补。单模型系统Single-model System利用单个多模态大模型完成细粒度分类可分为基于训练与无需训练的方法。1基于训练的方法FineDefics和CLS-RL通过注入包含细粒度类别信息的图像描述或问答数据利用监督微调或强化学习激活模型潜在的类别辨识能力。2无需训练的方法SAVs通过稀疏注意力向量等技术提取大模型固有的辨识性视觉特征在不依赖外部模型的情况下实现细粒度分类。多模型系统Multi-model System通过级联多个模型如MLLM、LLM、CLIP等完成细粒度分类依据最终用作分类器的模型可分为以多模态大模型为分类器和以CLIP为分类器的两类方法。1以多模态大模型为分类器的方法RAR利用基于CLIP的多模态检索器从类别特征记忆池中检索出候选子类别再利用多模态大模型进行重排序得到最终预测类别。2以CLIP为分类器的方法FineR利用多模态大模型从图像中提取具备区分性的属性描述再利用LLM强大的世界知识库推理出候选子类别名称用于CLIP进行分类。关键挑战数据依赖高需要细粒度类别数据进行微调标注成本高昂且数据规模有限无法覆盖开放域类别导致微调后的大模型原有的通用能力受损。性能差距大当前最先进的生成式大模型的细粒度分类准确率仍然落后于CLIP等判别式模型。层级不一致真实世界的对象类别是从粗到细的树形结构例如动物界存在“界门纲目科属种”的层次化结构而大模型面临“子类识别正确而父类识别错误”的问题难以在树形分类结构中实现不同层级的一致分类。3空间细粒度大模型图3 空间细粒度大模型方法框架空间细粒度大模型在高分辨率图像输入中能够精准定位并识别局部视觉信息。为了在捕捉细微空间线索的同时平衡计算效率现有研究主要分为4种技术路径多阶段架构、高分辨率编码器、视觉搜索策略以及区域感知引用模型如图3所示。多阶段架构Multi-Stage Architectures将复杂的空间感知任务拆解为一系列串行的子步骤。BuboGPT先进行特征提取再利用专门的模块如 SAM进行目标检测与定位最后由多模态大模型完成指令。其优势在于每个模块可以独立优化提升了系统的可解释性但多步推理可能导致误差累积且增加了推理延迟。高分辨率编码器High-Resolution Encoders针对标准ViT模型只能输入固定分辨率图像导致丢失细节的问题设计能够处理高分辨率输入的视觉骨干网络。ConvLLaVA使用卷积神经网络增强局部特征提取Oryx MLLM采用动态分辨率与混合编码机制自适应地处理不同尺寸和长宽比的图像从而保留全局信息的同时不丢失细微空间线索。视觉搜索策略Visual Search Strategies模仿人类“先看整体、再看局部”的习惯并不一次性处理整张图像而是通过迭代式提示SEAL或递归搜索树DyFo动态地“聚焦”图像中的关键区域进行放大观察在大幅降低计算冗余的同时提升了对小目标和密集场景的感知能力。区域感知引用模型Region-Aware Referencing Models显式地将区域位置信息如边界框坐标 [x, y, w, h]编码进输入序列中。Kosmos-2通过统一的序列建模生成指向特定视觉区域的Token在像素层面实现语言与视觉的对齐增强视觉定位、指代理解等能力。关键挑战细节感知与计算开销的矛盾高分辨率输入会导致大量视觉Token带来巨大的计算开销。现有方法采用视觉Token剪枝来压缩输入序列但由于大模型存在注意力偏差Attention bias和沉降Attention sinks等现象无法精确地去除冗余Token并保留关键Token导致剪枝后模型精度严重受损。空间碎片化基于图像块Patch的Tokenization以固定的方式切分输入图像会将完整的物体碎片化并分布在不同的图像块中这破坏了空间连续性导致模型容易遗漏目标对象对场景文字等连续信息识别错误。4时间细粒度大模型图4 时间细粒度大模型方法框架为了实现时间维度的细粒度感知理解视频中的瞬时动作、事件顺序和运动细节等细粒度时序信息当前方法根据解决的问题分为三个大类记忆机制解决长视频输入问题、时序推理解决时间定位问题以及运动建模解决动作细节问题。记忆机制Memory Mechanism针对长视频帧数超出大模型上下文窗口限制的问题MA-LLM引入外部记忆模块MovieChat将视频流中的关键信息压缩并存储为稀疏的记忆表征在需要时进行检索与回溯。这使得模型能够在低显存占用下处理长达数小时的视频同时保留关键的历史上下文信息。时序推理Temporal Reasoning旨在赋予模型“时间感”LITA利用相对时间戳TimeChat设计了特殊的时序编码显式地建模事件发生的顺序、持续时间及因果关系从而在时序定位等任务上实现秒级甚至帧级的精准度。运动建模Motion Modeling旨在捕捉微小的肢体动作与复杂的运动模式MotionGPT引入骨骼点作为额外输入对齐视觉特征与离散化的运动Token具备动作分析能力能够完成体育动作评分、细粒度手势识别等任务。关键挑战细节感知与计算开销的矛盾与高分辨率输入类似长视频输入同样会导致大量视觉Token带来巨大的计算开销。而由于视频不同帧间的时序关联从视频序列中剪枝冗余信息比静态图像更加复杂。长程信息衰减现有的记忆机制在处理小时级的超长视频时仍然会丢失历史信息。5总结与展望本文从类别、空间、时间三大维度出发系统定义了细粒度多模态大模型并梳理了各维度的前沿研究进展。同时细粒度多模态大模型目前仍存在下列值得探索的方向“精度-泛化-效率”的权衡如何在提升大模型细粒度感知精度的同时兼顾模型的泛化能力并降低计算开销知识增强策略细粒度标注数据获取成本高昂、规模有限如何整合模型外部的显式知识例如知识图谱、百科与内部隐式知识模型参数减少幻觉并降低对标注数据的依赖理解与生成的统一如何推动模型从单纯的细粒度感知向细粒度可控生成如生成特定细节图像迈进并最终实现统一的细粒度多模态内容理解与生成大规模评测基准现有的细粒度评测基准主要针对CLIP等判别式模型设计如何设计更适配生成式大模型的细粒度感知评测基准细粒度多模态推理如何利用思维链、反思机制等大模型推理能力提升模型在复杂细粒度任务中的逻辑与决策准确性AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】