同城同镇网站建设网站制作难吗
2026/4/16 23:53:28 网站建设 项目流程
同城同镇网站建设,网站制作难吗,网站设计风格确认书,创意装饰北京邮电大学团队提出指导解耦先验保持机制#xff0c;将扩散模型的条件指导解耦为领域指导和控制指导两部分#xff0c;通过预训练模型保持控制指导能力#xff0c;用无文本UNet学习领域知识。该方法仅需领域图像数据#xff0c;在人脸、动物和瓷器三个领域测…北京邮电大学团队提出指导解耦先验保持机制将扩散模型的条件指导解耦为领域指导和控制指导两部分通过预训练模型保持控制指导能力用无文本UNet学习领域知识。该方法仅需领域图像数据在人脸、动物和瓷器三个领域测试中FID降至6.57用户偏好87.5%实现了零标注域内高保真生成同时保持开放世界可控性全面超越传统微调方法。北邮团队提出“指导解耦先验保持”机制仅用领域图像把Stable Diffusion的“控制指导”与“领域指导”拆成两支网络前者冻结保开放世界能力后者用空文本UNet快速吸收域内特征再按权重融合推理人脸/动物/瓷器三类数据测试FID降至6.57用户偏好87.5%条件控制与3D生成全面超越传统微调实现“零标注”域内高保真生成。在人工智能生成内容AIGC领域扩散模型Diffusion Models已经展现出惊人的创造力。然而当我们希望这些强大的模型在特定领域比如生成人脸、动物或特定风格的艺术品内表现出色时常常会遇到一个棘手的问题如何在保证领域内生成质量的同时不牺牲其“开放世界”的强大可控性直观的微调Fine-tuning似乎是答案但却常常导致模型“忘记”原有的生成能力。北京邮电大学的研究者们提出了一项名为**指导解耦先验保持机制Guidance-Decoupled Prior Preservation Mechanism**的创新方法仅凭图像数据就让大规模扩散模型在域内生成任务中实现了高质量与强可控性的完美结合。论文标题Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation作者曹朴共同第一作者周峰共同第一作者杨录黄天瑞宋晴论文链接https://arxiv.org/abs/2312.08195代码仓库https://github.com/PRIV-Creation/In-domain-Generation-Diffusion录用会议CVPR 202501 背景与动机为什么域内生成如此困难在过去如果我们想在特定领域内进行生成比如从草图生成真实图像或者对人脸图像进行特定属性编辑通常需要为每个特定的任务和领域专门训练一个生成器。这些方法往往高度依赖于标注数据这在实际应用中是巨大的开销。随着Stable Diffusion等大规模扩散模型的崛起我们看到了希望。这些模型凭借其从海量图文数据中学习到的知识能够生成多样且可控的“开放世界”内容。它们甚至可以通过ControlNet等机制实现更精细的控制大大缓解了传统生成方法对数据的苛刻要求。然而正如大家在实践中可能感受到的这些通用模型直接生成的图像往往难以完全与特定领域的数据分布对齐。比如生成一张“瓷器”图片它可能缺乏瓷器特有的纹理和质感。图1域内生成任务的挑战。原始的Stable Diffusion V1.5模型橙色在生成域内内容时难以与特定领域的数据分布精确对齐缺乏真实感和可控性。为了解决这个问题一个直观的想法是在特定领域的图像数据上对预训练模型进行微调。但这里就出现了关键的挑战如何在提高领域内生成保真度fidelity的同时又保持模型对文本提示text prompts等“开放世界”控制的有效性图2在域数据上微调扩散模型的挑战。当我们在人脸图像数据集如FFHQ上微调Stable Diffusion v1.5时模型的域保真度逐渐提高但其开放世界可控性却逐渐下降。如图2所示当你尝试用人脸数据集FFHQ微调Stable Diffusion时虽然人脸生成质量提升了但模型对“戴帽子”这样的控制指令的响应能力却下降了。这背后隐藏着一个“指导灾难性遗忘”Guidance Catastrophic Forgetting的现象即微调过程导致模型对条件指导conditional guidance和无条件指导unconditional guidance的理解发生偏差。图3微调过程的示意图。展示了微调过程中指导灾难性遗忘的现象。尤其是无条件指导unconditional guidance它负责预测没有任何条件下的噪声预训练模型在这方面做得很好。但在域内微调后它会偏向于学习训练集中的视觉模式从而导致噪声估计不准确影响生成质量。图4无条件指导漂移现象。微调后的扩散模型在无条件生成时其结果会反映训练数据的视觉模式这可能导致不准确的噪声估计。02 方法详解指导解耦与先验保持的巧妙设计为了解决上述挑战研究团队提出了一种精巧的指导解耦先验保持机制。其核心思想是将条件指导conditional guidance解耦为两个独立的部分领域指导Domain Guidance专门负责引导去噪过程以生成与特定领域高度对齐的图像。控制指导Control Guidance负责处理开放世界的各种控制例如文本提示或空间条件。图5条件指导解耦的比较。(a) 为传统微调方法条件指导与域指导混杂。(b) 为提出的方法将条件指导解耦为域指导和控制指导并利用原始扩散模型保持控制指导和无条件指导不变。通过这种解耦控制指导和无条件指导可以继续由预训练好的扩散模型来预测从而保留其强大的“开放世界”能力。而领域指导则由一个额外训练的**无文本UNet副本Text-free UNet Copy**来学习。2.1 高效领域知识学习为了让这个专门学习领域知识的UNet副本更有效研究者们提出了两点创新空文本扩散模型Null-text Diffusion Model由于领域知识的学习仅通过图像数据进行不需要文本信息因此构建了一个无文本输入的UNet简化模型结构使其更专注于图像特征。通过文本特征优化初始化 E为了让新训练的UNet继承预训练模型的生成能力模型通过优化一个固定嵌入 来初始化。这个 从像“a photo ofdomain name”这样的文本提示中提取并经过少量步骤的优化能快速收敛为后续微调提供一个良好的起点。2.2 多指导域内生成流水线在推理阶段所提出方法巧妙地结合了这三种指导信号来生成图像无系件引导领域引导检制引导其中是来自预训练Stable Diffusion的无条件指导。是新训练的无文本UNet提供的领域指导。是来自预训练ControlNet或定制模型的控制指导。和 是可调节的权重用于平衡不同指导的影响。以在动物领域中生成受Canny图条件控制的图像为例研究者会使用在动物数据集上微调的扩散模型作为 并使用配备 Cannytoimage ControlNet的原始扩散模型作为 。这种灵活的组合使得模型能够适应多种复杂的生成任务。论文中还探讨了**条件解耦Condition Decoupling**的奥秘发现当多个条件如“猫”和“狗”被简单地组合时可能会产生“猫狗混合”的生物图13而不是独立的实体。通过更精细的解耦和详细的描述如“a photo of face, wearing glasses”可以有效缓解这种混淆实现更精准的控制并产生更多样化的结果图14。图13揭示条件独立性。简单组合“猫”和“狗”的文本条件会生成一个“猫狗混合”的生物。图14条件解耦的示例。解耦条件可以使内容保持独立性有助于减轻扩散先验中的偏差从而产生更多样化的结果。03 实验与结果全方位碾压的卓越表现研究团队在人脸FFHQ、动物AFHQv2和瓷器自收集三个多样化的领域进行了广泛的实验。3.1 无条件生成在无条件生成任务中所提出方法展现出惊人的领域对齐能力。其生成结果与目标域的数据分布高度匹配视觉质量显著提升。图6领域对齐的可视化。我们的方法生成的结果与给定领域数据集更加对齐。定量结果显示在Face领域所提出方法的FIDFréchet Inception Distance越低越好达到了6.57远优于微调12.37和LoRA23.76等基线方法。用户偏好度Human Preference越高越好更是高达87.5%几乎是其他方法的数倍这充分证明了其生成质量的卓越性。表1无条件生成定量结果。在基线中取得了优异的生成结果。3.2 条件域内图像生成在条件生成方面无论是文本条件Text-conditioned还是空间条件Spatial-conditioned所提出的方法都能有效保留预训练模型的控制能力同时保持高领域保真度。图7条件域内图像生成结果。能够有效保留预训练模型的控制能力。3.3 复杂条件下的图像生成该方法还能驾驭多重复杂条件。例如结合ControlNet和DreamShaper模型可以在生成域内图像的同时控制其姿态和风格。图8复杂条件下的生成结果。利用多种条件和模型展示了该方法在实现更精细控制方面的性能。3.4 图像编辑与3D生成除了基础生成任务还能应用于更高级的域内任务如图像编辑和3D生成。在人脸领域它能与SDEdit结合实现高质量的图像编辑图9。在瓷器领域通过与DreamFusion结合可以生成带有特定瓷器图案的3D物体效果显著优于基线图10和图15。图9人脸领域的图像编辑。遵循SDEdit并结合该方法编辑人脸图像。图10瓷器领域的3D生成。在瓷器领域进行3D生成效果优于仅基于SD1.5的DreamFusion。图153D生成消融研究。在3D微调过程中用基础SD替换该文的瓷器模型生成质量明显下降独特的瓷器图案完全消失。写在最后“无标注微调”Image is All You Need的理念在这项研究中得到了很好的体现。通过巧妙地解耦扩散模型的指导机制为大规模扩散模型在特定领域的高质量生成和精细控制开辟了一条新路径。这项工作不仅在理论上深入探讨了扩散模型微调的挑战更在实践中展示了卓越的性能。它让我们看到了一个未来即使面对复杂多变的特定领域生成需求我们也能通过精准的机制设计充分释放通用大模型的潜力。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询