2026/5/13 7:35:44
网站建设
项目流程
公司做零申报在哪个网站上,做网站引流做什么类型的网站最好,一个网站多个域名的seo优化,网站里的字体大小文章详细介绍了多模态大模型的两种架构#xff1a;模块化架构(需连接器转译图像)和原生架构(共享底层逻辑)。解释了图像Token化的原理#xff0c;对比了两种架构的工作流程、训练阶段和应用场景#xff0c;指出多模态大模型的终极目标是消除模态间的翻译感…文章详细介绍了多模态大模型的两种架构模块化架构(需连接器转译图像)和原生架构(共享底层逻辑)。解释了图像Token化的原理对比了两种架构的工作流程、训练阶段和应用场景指出多模态大模型的终极目标是消除模态间的翻译感实现AI对物理世界的直觉性理解。多模态大模型MLLM已经成为必然的发展趋势文字里的信息和知识只是冰山一角模型不仅要能理解文字还要能看懂图片听懂声音。理解多模态模型关键在于理解两种截然不同的架构模块化架构Modular像是一位“戴着翻译眼镜的语言天才”。LLM 作为架构的核心本身看不见图像需要一个“翻译官”即“连接器”将图像信号转译成它能听懂的文本语言。原生多模态Native像是一位“天生拥有感官的母语者”。它在诞生之初神经网络就同时发育出了视觉和语言中枢所有信息共享同一套底层逻辑端到端理解多模态信息。本文将深入浅出地讲解这两种架构的工作原理。一、两种架构的共同基石 —— 图像 Token 化无论哪种架构大模型处理信息的核心部件都是Transformer。但 Transformer 只能处理离散的序列Token无法直接读取连续的像素。因此第一步必须是图像的 Token 化。1. 与文本 Token 化的类比在处理文本时模型会将句子“我爱猫”切分为词元即 Token [我]、[爱]、[猫]。每个词元对应词表里的一串数字 ID图像的 Token 化也是将图像转变为一串连续的 Token 序列 。2. ViT将图片切分为向量ViTVision Transformer一种将 Transformer 架构直接应用于计算机视觉任务的深度学习模型。工作原理图像分块Patch Partitioning想象一张 224*224 像素的猫图。ViT 会把它切成 14*14 196 个小方块Patches每个方块大小为 16*16 像素。展平Flattening每个方块包含 16*16 个像素点每个像素有 RGB 三个颜色通道。我们将这些像素点排成一排变成一个包含 768 个数字的长列表。线性投影Linear Projection这就像是一个“空间变换器”。模型通过矩阵乘法将这 768 个原始数值压缩成一个更高维、语义更丰富的数学空间中例如 1024 维的向量空间的特征向量。3. VQ-VAE建立“视觉 Token 字典”为了让图像更像语言VQ-VAE向量量化变分自编码器引入了**“码本”Codebook**。 它预先定义了一本包含几万个“标准视觉符号”的字典。每个图像切片在线性投影后模型会去字典里寻找最像它的那个符号并用符号的编号如Token #502来代替原始数据实现真正的类文本“分词化Tokenization” 图片在数学形式上变得和文本词元一样。二、模块化架构的工作原理以****LLaVA和BLIP-2为代表的架构其核心逻辑是“组件拼接”。1. 三位一体的协同工作流这种模型由三个相互配合的组件构成视觉编码器眼睛通常是 CLIP 模型。它负责把原始像素初步加工提取出包含物体形状、颜色的原始视觉特征向量 Zv。连接器翻译它是唯一的“翻译”环节。在 LLaVA 中它就是一个线性投影矩阵 W负责把视觉特征向量 Zv “投影”到 LLM 的空间变成 “视觉 Token” Hv这一步完成图像空间到文本空间的向量对齐视觉 Token 在数学维度上与 LLM 的词表空间完全一致。语言模型大脑如 Llama。它接收这串 Hv 以及人类的文本指令像处理普通文本一样利用注意力机制Attention计算这些“视觉 Token”与“人类问题对应的“文本 Token”之间的逻辑联系最终输出答案。2. BLIP-2 架构的特别之处BLIP-2引入了Q-Former模块作为其“连接器”。Q-Former 不再像 LLaVA 做全量视觉特征翻译它的作用是解决信息瓶颈。它将海量的、分辨率无关的视觉特征压缩成固定长度的语义片段如 32 个 Token极大降低了后续 LLM 的计算压力 。通过 32 个查询向量Queries去视觉特征里“提问”它们像 32 个带着不同任务的专家去图像中寻找答案只寻找与当前文本最相关的视觉细节如“图中猫是什么颜色”、”背景是什么“Queries 会把上百万像素的冗余信息压缩成 32 个精华 Token 喂给 LLM极大地减少了冗余信息的干扰。3. 训练的两阶段从“识字”到“对话”阶段一特征对齐对齐。冻结“眼睛”和“大脑”只训练“连接器”。目标是让模型学会“看图识字”建立起图像向量与文字坐标的基本关联。阶段二多模态监督微调SFT。解冻连接器和 LLM喂给它例如由 GPT-4 模拟生成的、包含复杂逻辑的 QA 数据。此时大脑才真正开始学习如何遵循指令观察图片细节并学会在没见过的复杂环境下举一反三。三、原生架构的工作原理2024 年GPT-4o、Emu3和Baichuan-omni模型的诞生标志着原生多模态Native Multimodality时代的到来。在这种架构中不再需要复杂的“连接器翻译”环节。统一的神经网络模型是跨模态端到端预训练的所有模态在同一个神经网络里被处理图像、文本甚至音频在模型诞生的第一天就被混合在同一个 Transformer 序列中处理。这种“母语级”的融合意味着模型不再需要像模块化架构那样去“对齐”两个预训练好的空间而是在生长过程中自发形成了多维感官的关联。Next-Token Prediction预测下一个 Token这是原生模型的核心信仰。在 Emu3 或 GPT-4o 看来生成一段文本还是生成一个像素块本质上都是预测序列中下一个 Token 出现的概率。这种高度的一致性让模型获得了类似人类的“感官直觉”。四、举例讲解为什么模型能读懂一张图片假设有这样一张图片一个金发女孩身穿粉色碎花百褶裙手拿一杯冒热气的拿铁站在写有“香榭丽舍”的路牌下。那么模型是如何理解图片中的细节呢1. 传统模块化架构的工作流感知视觉编码器提取出海量的像素特征如碎花纹理、文字笔画。转译连接器将这些特征打包成 LLM 熟悉的向量。推理LLM 接收这些向量结合预训练中学到的知识在大脑中将其“聚类”到对应的语义点金色的向量 ≈ “发色”碎花向量 ≈ “裙子款式”。位置与文字利用位置编码识别物体坐标通过对齐预训练识别出路牌笔画对应特定的地名词汇。QA为什么能看清发型和款式LLaVA-1.5-HD 技术会将图片切成更细的网格。原本模糊的像素团块在放大后展现出了发丝的波浪和裙子的褶皱 。通过大规模训练模型内部已经建立起一种“聚类”当这堆特定的纹理向量出现时它在数学坐标上会精准地落向“波西米亚风”或“百褶裙”的语义区域。为什么知道谁在前谁在后在模块化架构如 LLaVA中位置信息主要通过视觉编码器ViT的 1D 位置编码提供 。而空间感谁在前谁在后的产生更多归功于多模态指令微调阶段引入的包含 Bounding Box边界框的训练数据让 LLM 学会了将特定的 Token ID 与画面坐标关联起来 。为什么能读出路牌上的文字早期的模块化模型如 LLaVA v1.0在预训练阶段通常是冻结 LLM 的这会导致模型缺乏“上下文学习”能力 。现在的趋势如 VILA 和 LLaVA-1.5倾向于在预训练阶段就解冻 LLM从而实现“深度对齐”通过在图文交错语料中做预训练LLM 的语言中枢会直接介入视觉理解 。当路牌上的字母线条被 Token 化后它们的向量特征直接命中了词表里“香榭丽舍”对应的位置实现了不依赖额外 OCR 插件的“天生识字”。2. 原生端到端架构的工作流全能接收模型通过 Vision Tokenizer 直接将“碎花裙女孩”和“路牌”转换成它熟悉的原生视觉 Token。原生理解它不再需要“翻译”而是直接在同一个 Transformer 序列中计算。女孩的发色、拿铁的热气、甚至路牌上的字符对模型来说就是它出生时就在学的“母语”。优势因为没有翻译损耗原生模型如 GPT-4o能以极低延迟理解图片中如“拿铁冒出的热气”这种细节。结语真正的理解并不依赖于特定的感官而是依赖于模型能否将异构的信息——无论是像素点、声波频率还是文字字符——都映射到同一套统一的数学语义空间中。多模态大模型的终极目标是消除模态之间的‘翻译感’让 AI 能够像人类一样产生对物理世界的‘直觉性理解’。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】