2026/4/17 11:53:16
网站建设
项目流程
海口网站运营托管报价,东莞厚街国际大酒店,成都平面设计公司排名前10,企业网站建设成本费用如果你关注人工智能#xff0c;尤其是计算机视觉#xff08;CV#xff09;和自然语言处理#xff08;NLP#xff09;领域#xff0c;你可能听过一个响亮的名字#xff1a;Transformer。这个在NLP领域凭借自注意力机制横扫一切的架构#xff0c;如今已跨越界限#xff…如果你关注人工智能尤其是计算机视觉CV和自然语言处理NLP领域你可能听过一个响亮的名字Transformer。这个在NLP领域凭借自注意力机制横扫一切的架构如今已跨越界限正在重塑我们处理图像的方式。而这场革命的开端便是2020年由Google Research提出的Vision TransformerViT。在这篇博文中我们将一起揭开ViT的神秘面纱看看它是如何用看待语言序列的方式“阅读”图像并引发计算机视觉领域深刻变革的。传统王者的局限卷积神经网络CNN在ViT出现之前计算机视觉几乎是卷积神经网络CNN的天下。从AlexNet到ResNetCNN通过其卷积核像扫描器一样在图像上滑动高效地提取局部特征如边缘、纹理并通过层层堆叠逐步理解更复杂的模式。然而CNN有一个与生俱来的特性局部性。每个卷积核一次只能看到图像的一小块区域感受野虽然深层网络能间接扩大感受野但模型要理解图像中两个距离较远部分之间的关系例如判断一只猫是否在看画面角落的飞虫仍然是一个间接且低效的过程。这就像是“只见树木难见森林”。ViT的核心思想化整为零再合而为一ViT做了一个大胆的假设我们可以像处理句子中的单词一样来处理一张图片。具体来说它分为以下几个关键步骤其处理流程可直观地通过以下示意图来理解原始图像第1步: 分块将图像划分为多个小方块Patch第2步: 序列化将每个Patch视为一个词第3步: 线性投影将每个Patch转换为特征向量嵌入第4步: 添加位置与类别信息加入位置编码与CLS标记第5步: 核心处理送入Transformer Encoder多头自注意力第6步: 输出由CLS标记的特征进行分类第一步分块将一张完整的图片例如224x224像素分割成一个一个固定大小的小方块比如16x16像素。这样一张图就被“切割”成了196个图像块。第二步线性投影每个小方块被展平成一个向量并通过一个线性层映射到一个固定的维度例如768维。此时图片就变成了一个长度为196、每个元素是768维向量的序列。这类似于将一个句子处理成长度为N、每个词是D维的词嵌入序列。第三步引入位置与任务信息可学习的[class]标记在序列的开头插入一个特殊的、可学习的向量。这个标记最终将承载整个图像的“摘要”信息用于分类任务。位置嵌入由于Transformer本身没有位置概念ViT会为每个图像块的位置如第1块第2块…也学习一个编码向量并加到其对应的特征上让模型知道各个块原本在图像中的位置。第四步Transformer编码器这个“加料”后的序列196个图像块 1个[class]标记被送入一个标准的Transformer Encoder。这是ViT的灵魂所在。Transformer Encoder中的多头自注意力机制允许序列中的任何一个“图像块”去关注所有其他“图像块”并从中提取信息。这意味着模型在训练伊始就具备了全局的、动态的感受野。角落里的一个特征可以直接与中心区域的另一个特征建立联系从而更高效地建模图像的全局语义。第五步分类输出最终我们只取那个特殊的[class]标记对应的输出向量通过一个轻量的多层感知机MLP Head进行分类得到图片属于哪个类别的预测。ViT的震撼与反思ViT的提出带来了两个重要的启示和一个挑战启示一卷积并非必须。ViT的成功证明了即使在图像领域CNN的归纳偏置平移不变性、局部性也不是不可撼动的“铁律”。纯粹的、基于自注意力的架构同样可以甚至在数据充足时做得更好。启示二注意力即连接。自注意力机制提供了一种比卷积更灵活、更强大的特征整合方式。它让模型能够根据内容动态地决定哪些区域需要被重点关注从而实现更智能的视觉理解。核心挑战对数据的“胃口”巨大。ViT的弱点也很明显它在相对较小的数据集如ImageNet-1k上从头训练时效果往往不如精心调优的ResNet。这是因为Transformer结构本身“记忆”的东西少它不像CNN那样内置了“图像具有局部相关性”的强先验知识。因此ViT需要海量的数据来从零开始学习这些视觉世界的底层规律。从ViT到未来蓬勃发展的视觉Transformer家族ViT打开了一扇新世界的大门随后涌现出大量优化和改进的视觉Transformer模型以解决其计算复杂度高、数据需求大等问题Swin Transformer引入了分层架构和移位窗口自注意力像CNN一样构建特征金字塔使其在目标检测、分割等下游任务上取得了SOTA效果并大幅降低了计算量。DeiT通过引入一种特殊的蒸馏token让ViT能够从一个强大的CNN教师模型中学习从而在不使用海量外部数据的情况下仅用ImageNet就在ImageNet上达到了SOTA极大降低了ViT的训练门槛。MViT将多尺度思想融入Transformer更高效地处理视频和图像的多层次特征。更重要的是ViT的出现为多模态大模型奠定了基石。如今我们看到像CLIP这样的模型它使用一个图像编码器通常是ViT或其变体和一个文本编码器Transformer将图片和文字映射到同一语义空间实现了令人惊艳的零样本图文理解能力这正是ViT所代表的视觉基础模型强大生命力的体现。结语Vision Transformer不仅仅是一个新的图像分类模型它更代表了一种思维范式的转变——用统一的Transformer架构来处理不同模态的数据。它模糊了NLP与CV之间的界限推动了基础模型和多模态AI的研究热潮。虽然CNN因其高效和成熟在诸多场景中仍不可替代但ViT及其家族无疑为我们指明了一个充满潜力的方向一个更加通用、统一、能够融会贯通地理解世界的AI架构。未来也许我们不再需要为“视觉任务”和“语言任务”设计截然不同的模型大脑而只需一个更强大的、基于注意力的统一心智。ViT正是这趟激动人心旅程的第一块里程碑。