易讯网络网站建设建设足球网站的心得和意义-巴中市网站建设公司-Seo优化

易讯网络网站建设建设足球网站的心得和意义

2026/6/28 17:30:06 网站建设项目流程

易讯网络网站建设,建设足球网站的心得和意义,行业网站做不下去,空间设计网站大全作者提出了一个框架可以将自回归模型的优势与上下文学习的视觉语言任务的具体要求无缝集成。作者尝试了多模态输入输出的上下文学习#xff0c;旨在通过特定模态的量化和共享嵌入来统一视觉语言数据#xff0c;然后对预先组织好的交错上下文样本序列执行自回归预测以实现上下…作者提出了一个框架可以将自回归模型的优势与上下文学习的视觉语言任务的具体要求无缝集成。作者尝试了多模态输入输出的上下文学习旨在通过特定模态的量化和共享嵌入来统一视觉语言数据然后对预先组织好的交错上下文样本序列执行自回归预测以实现上下文推理。Towards More Unified In-context Visual Understanding会议CVPR 2024论文链接https://arxiv.org/abs/2312.02520介绍与方法动机随着大型语言模型的快速发展上下文学习ICL逐渐成为自然语言处理NLP领域的一种新范式。如GPT-3中所述给定语言序列作为通用接口该模型可以通过使用有限数量的提示和示例快速适应以不同语言为中心的任务。这是一种基于提示和示例的策略通过修改演示和模板大大简化了将任务知识集成到LLM中的过程。最近ICL已被应用在视觉理解任务中例如语义分割和图像字幕在推理时表现出良好的泛化性能。一些早期工作为将ICL应用于视觉语言VL任务进行了一些探索通过将图像模态用预训练的语言模型建模以实现上下文学习。例如Flamingo[2]将图像输入作为一个特殊的标记以文本的形式进行交错输入提示并将视觉信息注入到具有门控交叉注意力密集块的预训练LLM中。它展示了处理各种视觉语言任务的非凡能力。然而基于LLM解码器设计使其只能输出文本。后续视觉上下文学习方案中大多采用图像修复的方式同样将示例与输入图片表示为n宫格图像通过修复指定的输出区域以实现上下文学习[3-5]。MAE-VQGAN[3]利用视觉相关文献中的插图和信息图基于预训练的MAE进行图像修复显示了基本上下文推理能力。此外Painter[4]的研究在连续像素上使用MAE进行掩码图像建模通过将各个视觉任务的输出统一为RGB格式的图像进行上下文学习。随后SegGPT[5]采用类似的框架解决多样化的分割任务。但上述模型只能输出图片。如图1所示先前的工作通常局限于特定模态的输出。我们尝试了多模态输入输出的上下文学习旨在通过特定模态的量化和共享嵌入来统一视觉语言数据然后对预先组织好的交错上下文样本序列执行自回归预测以实现上下文推理。方法我们提出了一个框架可以将自回归模型的优势与上下文学习的视觉语言任务的具体要求无缝集成。主要分为三个流程1通过组织良好的视觉语言提示以描述基本的视觉理解任务如分割和字幕。2在将输入转换为预定义的提示格式后使用特定于模态的标记器将输入对的上下文提示量化为离散标记然后使用通用嵌入网络将它们嵌入到统一表示中。3引入具有稀疏MoE的解码器transformer网络来对交织的统一表示执行生成建模。视觉语言提示在视觉语言提示设计我们参考了之前的工作对Vision-only tasks在每个图像表示前面插入一个特殊的标签[BOI]指代当前图像的位置对Vision-language tasks对于每个图像同样在图像表示前使用特殊的“[BOI]标签。对于文本部分我们用它们对应的实例类别和边界框 (bbox) 来进行区域描述例如“Category:. Bboxes: [x1y1x2y2]. Caption.其中表示类别集合中的类索引表示定位对象的点坐标。在每个文本的开头添加了一个特殊的标签 [BOT]。在上下文示例序列的每个示例结尾中我们加入了[EOC]标签来表示当前上下文样本的结束。多模态上下文统一嵌入框架有了上下文任务的视觉语言提示后需要解决的是如何对多模态数据进行建模从DALLE的结构收到启发我们多模态上下文统一嵌入框架实现对不同输入模态的表示。具体而言分为两个阶段Stage1多模态量化为了支持多模态输入采用模态特有的量化器对不同模态数据量化为离散tokenStage2统一编码对多模态的输入离散token通过特定的prompt组织后通过统一的embedding网络编码到统一空间。经过这样的处理后不同模态的数据在表示空间得到统一方便下个阶段的学习。稀疏MoE解码器框架最后为了对输入序列进行建模以实现上下文学习我们决定采用transformer decoder-only的结构基于next-token prediction的预测方式天然和上下文较为匹配。为了解决多模态和多任务可能带来的相互干扰引入稀疏MoE结构替换decoder transformer块中的FFN来对输入序列执行生成式建模。损失采用标准的交叉熵损失和MoE门控网络的辅助损失。所提出的多模态上下文统一嵌入框架和稀疏MoE解码器框架分别如图2和图3所示实验实现细节为了评估模型对上下文能力我们设计了两个任务来验证模型的有效性。因此我们利用语义线索重新定义传统视觉任务强调视觉语言理解任务例如语义分割和图像字幕分别称为类感知上下文分割和描述CA-ICL Segmentation、Captioning。通过利用MS-COCO和Visual-Genome数据集分别构建类别实例池我们为这两个任务构建了相应的训练与评估数据。实现细节上图片量化器我们采用了码本大小为1024的VQ-GAN文本量化器采用码本大小为50257的GPT-2 BPE 量化器。我们使用 GPT-small架构来实现我们的模型同时替换部分解码器层中的 FFN 为基于Uni-Perceiver v2引入的属性路由MoE具体超参数参考补充材料。

标签：网站建设企业官网项目流程 UI设计前端开发

您可能感兴趣的其他内容

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

贵州网站设计户外平台设计

python网站开发框架wordpress翻译

网站建设制作视频教程深圳网站建设公司招聘电话销售

莆田网站制作设计做一电影网站的apk

网站空间买卖wordpress极简中文主题

设计师做单页的网站wordpress注册页模板

文章分类

标签云

相关文章

网站空间名词解释安徽旅游在线网站建设

国内做的比较好的网站汕头模板做网站

开发门户网站报价做的好的c2c网站

需要专业的网站建设服务？