2026/2/15 13:14:24
网站建设
项目流程
网站会员功能,优化大师win10,项目管理中软件分类为,wordpress 访客插件概述
本研究提出的 Skywork UniPic 是一个 1.5B 参数的自回归模型#xff0c;它将图像理解、从文本生成图像和图像编辑集成在一个架构中。
传统上#xff0c;许多多模态人工智能在单独的模型和适配器中处理理解、生成和编辑#xff0c;导致性能分散和推理成本增加。
UniPic …概述本研究提出的 Skywork UniPic 是一个 1.5B 参数的自回归模型它将图像理解、从文本生成图像和图像编辑集成在一个架构中。传统上许多多模态人工智能在单独的模型和适配器中处理理解、生成和编辑导致性能分散和推理成本增加。UniPic 采用了 “解耦编码策略”在一个共同的 LLM 骨干上连接了以生成为重点的屏蔽自回归MAR编码器和以理解为重点的 SigLIP2 编码器从而实现了特定任务优化和相互知识转移。此外该系统还结合了 1 亿规模的高质量数据集、带有奖励模型的数据质量管理以及从 256 像素到 1024 像素的渐进式分辨率扩展学习从而在 RTX 4090 等常见 GPU 环境中实现高清图像生成。评估结果表明GenEval 0.86、DPG-Bench 85.5 和 GEdit-Bench 5.83 等模型具有很高的性能与同等规模和尺度的现有集成模型相比具有很强的竞争力。建议的方法Skywork UniPic 的主要特点是采用 “解耦编码策略”将图像理解、生成和编辑高效集成到一个模型中。在生成任务中使用 MAR 编码器-解码器支持高分辨率合成同时保持像素级保真度。另一方面理解任务使用 SigLIP2 编码器进行语义丰富的特征提取。两者通过独立的 MLP 投影层连接到 15 亿参数的 Qwen2.5 主干网从而通过统一的自回归处理实现任务间的知识共享。学习以四级课程结构进行从 MAR 预学习、MAR-LLM 对齐、任务集成优化到利用奖励模型的 SFT。数据质量保证使用在 GRPO 和 Skywork-EditReward 上训练的 Skywork-ImgReward专门保证编辑准确性以建立可用于各种编辑和生成场景的数据集同时消除低质量样本。实验实验在三个领域进行图像生成、图像编辑和图像理解。在图像生成任务中使用了 GenEval建设性理解和 DPG-Bench长指令跟踪UniPic 在 GenEval 中的准确率为 0.86在 DPG-Bench 中的准确率为 85.5。在单个对象生成、多个对象组合和位置理解方面UniPic 的准确率尤其高。在编辑任务方面UniPic 在 GEdit-Bench 和 ImgEdit-Bench 分别取得了 5.83 和 3.49 的高分在行为编辑和风格修改等特定类别中表现出了优势。比较对象包括 OmniGen2 和 BAGEL 等集成模型以及 ICEdit 和 Step1X-Edit 等专业编辑模型。此外UniPic 还能在 RTX 4090 上生成 1024 x 1024 分辨率的图像GPU 内存不足 15 GB这证明了它作为集成式多模态基础设施模型的实用性在性能、效率和多功能性方面取得了良好的平衡。