南京建站推广公司0453牡丹江信息网免费发布信息
2026/6/28 18:49:50 网站建设 项目流程
南京建站推广公司,0453牡丹江信息网免费发布信息,国内网站开发语言,建设网站困难的解决办法文章详细解析了阿里Qwen系列视觉语言模型的技术演进#xff0c;从Qwen-VL到Qwen3-VL的创新架构。核心包括#xff1a;2D-RoPE与M-RoPE位置编码、NaViT原生分辨率支持、视觉-语言融合策略#xff0c;以及Qwen3-VL的Interleaved MRoPE和DeepStack架构创新。特别优化了视频时间…文章详细解析了阿里Qwen系列视觉语言模型的技术演进从Qwen-VL到Qwen3-VL的创新架构。核心包括2D-RoPE与M-RoPE位置编码、NaViT原生分辨率支持、视觉-语言融合策略以及Qwen3-VL的Interleaved MRoPE和DeepStack架构创新。特别优化了视频时间编码解决了长视频理解问题并支持动态分辨率处理显著提升了多模态感知能力。Qwen-VLQwen基于 Llama而 Llama 基于标准 Transformer 架构Llama 对 Transformer 作出如下更改Post-Norm 改为 Pre-Norm训练过程中梯度回传更稳定归一化由 LN 改为 RMSNorm标准 LNRMSNormRMSNorm 计算量更少且避免了 LN 可能的除零带来的训练不稳定ReLU 改为 SwishGLU基于 Swish 激活函数Swish 又是基于 ReLU避免 sigmoid 等在两端非饱和区梯度为 0 的困境同时融入 Gated Linear Unit期望通过动态门控过滤信息位置编码改为 RoPE核心就如下几点通过旋转角度表示绝对位置并通过乘法旋转形式作用于 Q、K好处就是不改变语义信息的幅度避免加性模式下位置编码对原有 attention score 计算过程的影响天然的具备表示相对位置关系的能力更符合 NLP 直觉公式及可视化如下整体架构如下Qwen-VLQwen-VL 系列包括 Qwen-VL 和 Qwen-VL-Chat整体包含如下三部分LLM以 Qwen 7B 为语言模型并进行初始化Visual Encoder采用 ViT 架构使用 OpenClip 的 ViT-bigG 预训练权重进行初始化对 CLIP 的开源复现输入 image 会被 resize 到 且按 划分 patch以生成 image tokensPosition-aware Vision-Language Adapter单层随机初始化的 cross attention固定数量的 Learnable embedding 为 query原始 ViT 输出结果为 key value用于压缩 visual tokens 数量减少后续 LLM 计算 / 内存复杂度同时对齐至 text hidden dimsQwen2-VL相比于 Qwen-VL主要更新在于 vision encoder 部分通过 2D-RoPE 捕获图像的二维位置信息并引入 NaViT 支持原生分辨率和任意宽长比通过 Multimodal Rotary Position Embedding 统一 image / video / text 模态的位置编码2D-RoPE M-RoPE2D-RoPE 就是对 RoPE 的拓展从两两一组变为如下分组形式拓展至 M-RoPE实际上就是对于多模态输入其具体含义如下对于文本输入 使用相同的 position ID使得 MRoPE等价于 1D-RoPE处理图像时每个 visual token 的时间 ID 保持不变根据宽高使用 2D-RoPE处理视频时时间 ID 逐帧递增其余与图像一致NaViT 支持原生分辨率Packing预定义 batch data尺寸为然后通过贪心算法遍历同一 batch 内的 visual tokens 序列填充至第一个能容纳的预设序列中最后未填充的部分进行 paddingSampling Token DroppingFor Training在 packing 之前为每个 sample 设置独立的 dropping rates具体数值通过服从某分布的动态采样实现目的是减少序列长度同时引入正则化Masked self attention训练只关注自己所在的 tokens所以需要为 ViT 引入 Self-Attention Mask。其它补充对于视频数据进行 2Hz 采样并在 ViT 之前通过 3D-Conv 融合 1s 内的相邻帧对于图像视为两个相同的帧在 ViT 末尾接一个简单的 MLP Layer用于将相邻 的 tokens 压缩为一个以减少序列长度同时对齐 LLM 维度在 visual tokens 首尾添加 |vision_start| 和 |vision_end| 进行区分Qwen2.5-VLQwen2.5-VL 框架基于 Qwen2-VL进行了如下更新重新设计 Visual Transformer Encoder 架构并以 CLIP 训练范式从头开始训练与 LLM 部分对齐在 vision encoder 中引入 SwiGLU、RMSNorm为解决 NaVIT 带来的 image tokens 过长导致计算效率低下的问题仅 4 层使用 full-attention其余 layers 均使用最大窗口尺寸 的 Window Attention小于 的区域无需填充直接保留其原始分辨率改进 M-RoPE 编码形式将 M-RoPE 中 的 维度从累加值改为帧编号以使得模型能够更好地理解时间动态Qwen3-VL整体结构依旧采用三段式架构LLM基于 Qwen3 构建Visual Encoder使用 SigLIP-2 作为 vision encoder并基于官方 checkpoint 初始化使用动态分辨率继续训练将 CLIP 中的对比学习 softmax loss 改为了 sigmoid loss分布式训练中的 loss 计算不再依赖跨越多个 device 的完整 batch 数据效率更高且不依赖大 batch size支持动态分辨率训练固定分辨率训练至 90%然后结合 FlexiViT 和 NaViT以更好地支持动态分辨率FlexiViT一种支持可变尺寸 PE 的训练范式模型层面支持不同分辨率NaViT同一 batch 内支持不同分辨率遵循 COMP 模式采用 2D-RoPE Learnable PE 双 PE通过双线性插值实现 Learnable PE 对动态分辨率的支持其他与 Qwen3-VL 无关的细节详见相关论文MLP-based Vision-Language Merger使用双层 MLP 将 vision encoder 输出的相邻 tokens 合并为一个并与 LLM 维度对齐架构创新架构层面进行如下创新Interleaved MRoPE实际上就是修复了 Qwen2-VL 的缺陷在 Qwen2-VL 中按顺序划分 即这会导致 编码分据不同频段而未享受到完整的频域空间这将缩短位置编码的实际覆盖范围因此 Qwen3-VL 中修改为DeepStack仅借鉴 DeepStack 思路将 vision encoder 中间层特征以残差形式直接加至 LLM 前几层的输出中Video TimestampQwen2.5-VL 中通过将时间位置 ID 直接绑定到绝对时间该方法会为长视频生成过大且稀疏的时间位置 ID从而削弱模型理解长时间上下文的能力。比如说模型训练时绝大多数是短视频可能的总帧数是在推理时突然遇到 这种级别的帧编号可能就无法正确预估距离正确理解视频了该方案下的有效学习需要对不同 fps 进行广泛且均匀分布的采样这显著增加了训练数据构建的成本在不同原始帧率的视频中1s 可能对应着完全不同的帧编号比如30 fps 的视频对应第 30 帧5 fps 的视频对应第 5 帧模型若要学会 1s 这个概念可能需要在训练阶段见过所有可能的帧率且进一步抽象出 1s 的不同表示Qwen3- VL 中采用了一种基于文本 token 的时间编码策略此时每个视频时间片段都前缀一个以格式化文本字符串表示的时间戳如 ❤️.0 seconds在训练过程中同时生成以 s 和 hours:minutes:seconds 格式表示的时间戳以确保模型学会解析多样化的时间码表示这种方式以适量上下文长度的增加为代价但使得模型能够更有效且精确地感知时间信息从而促进时间感知视频任务如视频定位和密集描述生成AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线​03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询