2026/5/18 15:16:22
网站建设
项目流程
惠州h5网站建设,odoo 网站建设,百度站长工具验证,在建立网站站点的过程中X-ReID是一种创新的跨模态行人重识别框架#xff0c;通过跨模态原型协作和多粒度信息交互两大机制#xff0c;有效解决了可见光与红外模态间的鸿沟问题#xff0c;并精准捕捉视频序列的时空信息。该方法利用CLIP预训练知识缩小模态差异#xff0c;通过短时序、长时序和跨模…X-ReID是一种创新的跨模态行人重识别框架通过跨模态原型协作和多粒度信息交互两大机制有效解决了可见光与红外模态间的鸿沟问题并精准捕捉视频序列的时空信息。该方法利用CLIP预训练知识缩小模态差异通过短时序、长时序和跨模态三个维度的信息交互优化特征表示在主流数据集上实现了当前最优性能为跨模态视频分析提供了重要参考。标题X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification开源代码https://github.com/AsuradaYuci/X-ReID论文下载地址https://arxiv.org/pdf/2511.17964在计算机视觉领域跨模态行人重识别ReID一直是极具挑战性的研究方向尤其是基于视频的可见光-红外Visible-Infrared行人重识别VVI-ReID。这类任务需要在非重叠相机拍摄的不同模态视频序列中准确检索到同一行人广泛应用于夜间安防监控、跨场景追踪等实际场景。现有方法要么难以有效缩小可见光与红外模态间的固有差异modality gap要么在捕捉视频序列的时空信息时忽略了模态一致性约束。近期提出的一种名为X-ReID的新型跨模态特征学习框架通过创新的跨模态原型协作与多粒度信息交互机制在两大主流数据集上实现了性能突破。一、VVI-ReID的核心挑战在深入X-ReID框架之前我们需要先明确VVI-ReID任务面临的两大核心痛点模态鸿沟Modality Gap可见光与红外视频的成像原理截然不同——可见光依赖环境光照反射红外则基于物体热辐射导致同一行人在两种模态下的视觉特征差异极大。传统方法虽尝试通过辅助信息如人体形状特征、立体图像搭桥但需额外标注或预处理实用性受限。时空信息建模Spatio-Temporal Modeling视频序列包含丰富的帧间运动信息和空间细节但部分遮挡、检测不准确等问题会破坏单帧特征的可靠性同时现有方法在建模长短期时序依赖时往往忽略了模态差异的动态变化。此外大规模视觉语言模型如CLIP在通用检索任务中表现出色但直接迁移至VVI-ReID面临瓶颈难以学习模态共享的文本提示textual prompts单纯的单模态微调无法缩小模态鸿沟。二、X-ReID框架核心设计X-ReID的核心思路是充分利用CLIP的预训练知识缩小模态鸿沟同时通过多粒度交互捕捉时空信息并在整个过程中强化模态一致性约束。框架主要由两大模块构成跨模态原型协作Cross-modality Prototype Collaboration, CPC和多粒度信息交互Multi-granularity Information Interaction, MII。2.1 跨模态原型协作CPC让CLIP知识为跨模态服务CPC的核心目标是解决CLIP在VVI-ReID中面临的文本缺失和模态差异问题通过构建跨模态原型prototype实现知识迁移与模态对齐。其工作流程分为三步1原型记忆初始化Memory Initialization不同于传统方法依赖文本提示CPC直接利用CLIP的视觉编码器提取身份特异性原型identity-specific prototypes。对于每个行人身份我们遍历其所有训练视频包括可见光和红外模态通过CLIP视觉编码器提取序列级特征再对同一身份的特征取平均得到初始原型其中表示第个身份是该身份对应的视频数量是单个视频的序列级特征。通过这种方式我们为每个模态分别构建初始原型记忆库可见光和红外。2跨模态原型更新Cross-modality Update为了让原型融合两种模态的信息CPC设计了跨模态更新策略。在训练过程中对于可见光模态的原型我们从当前批次的红外模态样本中选择与该原型相似度最低的难样本hard sample进行更新然后通过动量更新公式迭代优化原型其中是动量因子实验中设为0.2可以是同模态样本或跨模态难样本。通过这种方式最终得到融合双模态信息的精炼原型和。3跨模态原型协作损失CPCL为了强制模型学习模态无关特征CPC设计了协作损失要求可见光样本不仅对齐自身模态的精炼原型还需对齐红外模态的精炼原型反之亦然其中表示余弦相似度是批次中的身份数量。这一损失函数能有效拉近不同模态下同一身份的特征距离缩小模态鸿沟。2.2 多粒度信息交互MII精准捕捉时空与模态信息MII模块旨在解决视频序列的时空建模问题同时通过跨模态交互进一步优化模态对齐。该模块包含三个子组件分别对应短时序、长时序和跨模态三个维度的信息交互1短时序信息交互SII捕捉相邻帧依赖SII聚焦于相邻帧的短期动态信息通过补丁令牌交换patch token exchange实现帧间信息互补。对于第帧的补丁令牌我们将其通道分为三部分分别与前一帧、后一帧的对应通道拼接重构出增强后的补丁令牌其中是特征通道数。随后以原始[CLS]令牌为查询query重构后的补丁令牌为键key和值value通过多头交叉注意力MHCA和前馈网络FFN捕捉短时序依赖这种设计能有效缓解单帧遮挡和检测不准确带来的特征噪声。2长时序信息交互LII建模长程帧间关联针对长视频序列的时序依赖建模LII通过**[CLS]令牌跨帧交换**实现长程信息融合。我们设置时间步长实验中设为2将第帧的[CLS]令牌作为查询第帧的补丁令牌作为键和值通过注意力机制传递长时序信息最后将SII和LII的输出取平均得到融合短长时序信息的帧级特征3跨模态信息交互CII强化模态一致性为了在时空建模过程中进一步缩小模态鸿沟CII模块直接对可见光和红外模态的特征进行交互优化。首先通过时序平均池化TAP得到可见光模态的序列级特征将其与红外模态的补丁令牌拼接输入多头自注意力MHSA和FFN进行跨模态特征融合同时设计跨模态约束损失CMCL最小化融合前后的特征距离确保模态一致性其中是批次中视频总数是CII融合后的序列级特征。2.3 整体损失函数X-ReID的训练过程采用多损失联合优化包括CPC协作损失、三元组损失、交叉熵损失和跨模态约束损失整体损失为其中三元组损失用于增强特征的判别性交叉熵损失用于身份分类训练四者协同确保模型同时具备模态对齐能力、时空建模能力和判别能力。三、实验验证与性能分析3.1 实验设置数据集采用两大VVI-ReID基准数据集HITSZ-VCM和BUPTCampus涵盖不同场景下的可见光和红外视频序列。评价指标采用累积匹配特性CMC和平均精度均值mAP包括红外到可见光I2V和可见光到红外V2I两个检索方向。实现细节基于PyTorch框架使用CLIP的ViT-B/16作为视觉编码器训练60个epoch采用Adam优化器学习率从暖启动至并在30、50epoch时衰减10倍。3.2 核心实验结果X-ReID在两大数据集上均取得了当前最优性能在HITSZ-VCM数据集上I2V方向Rank-1准确率达73.4%mAP达60.5%V2I方向Rank-1准确率达76.1%mAP达59.6%显著超越CST、HD-GI等现有方法。在BUPTCampus数据集上I2V方向Rank-1准确率达68.2%V2I方向达68.8%相比DDAG等传统方法提升超过20个百分点。3.3 超参数敏感性分析对于SII的时间步长当仅相邻帧交互时性能最优增大步长会破坏时序一致性导致性能下降。对于LII的时间步长时性能最佳步长过小无法捕捉长程依赖步长过大则会引入无关帧的噪声。四、总结X-ReID通过创新的跨模态原型协作和多粒度信息交互机制成功突破了VVI-ReID任务中的模态鸿沟和时空建模两大核心挑战在主流数据集上实现了性能超越。其核心思想利用预训练模型知识缩小模态差异同时通过细粒度交互捕捉数据固有结构为跨模态视频分析提供了重要参考。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】