2026/5/13 9:02:28
网站建设
项目流程
有那些做自媒体短视频的网站,甘肃建设银行网站,wordpress讨论组,网页qq怎么登录现代AI画图#xff08;如Stable Diffusion#xff09;通常有两个特点#xff1a;第一#xff0c;它是分很多步慢慢画出来的#xff08;多步采样#xff09;#xff1b;第二#xff0c;它不是直接画在像素上#xff0c;而是在一个压缩的“潜空间”里画#xff0c;最后…现代AI画图如Stable Diffusion通常有两个特点第一它是分很多步慢慢画出来的多步采样第二它不是直接画在像素上而是在一个压缩的“潜空间”里画最后再解压成图片。这两个特点虽然让效果变好了但也让模型变得复杂且慢。这篇论文想挑战一个高难度目标不做压缩直接在像素上一步就把图画好。作者发现如果让模型直接预测“干净的图”而不是预测“噪声”或“速度”模型就能在像素空间里学得很好。这就像是给了模型一个更清晰的临摹对象让它能“一眼”就把画作完成。目前的图像生成模型主要依赖多步采样和潜空间表示。多步采样导致生成速度慢而潜空间虽然降低了维度但也引入了额外的自编码器VAE训练成本和复杂性。想要实现一步、无潜空间Latent-free的生成非常困难因为像素空间维度极高且模型需要在一步之内完成从纯噪声到复杂图像的巨大跨越这对神经网络的拟合能力提出了极高的要求。之前的尝试往往效果不佳或难以训练。为了解决该问题论文提出了Pixel MeanFlow (pMF)框架通过分离预测空间图像与损失空间速度结合感知损失成功实现了高质量的一步像素级图像生成。该方法在ImageNet 256分辨率下达到了2.22的FID分数甚至超过了许多复杂的潜空间模型。一、论文基本信息论文标题One-step Latent-free Image Generation with Pixel Mean Flows作者姓名与单位Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li (MIT); Zhengyang Geng (CMU); KaimingHe (MIT)论文链接https://arxiv.org/abs/2601.22158二、主要贡献与创新提出了Pixel MeanFlow (pMF)这是一种针对一步生成、无潜空间模型的全新训练框架。创新性地将网络预测空间x-prediction与损失计算空间v-loss解耦利用流形假设降低了学习难度。引入了广义的去噪图像场概念建立了一套在图像流形、平均速度场和瞬时速度场之间转换的数学机制。验证了在像素空间生成中直接预测去噪图像xxx比预测速度uuu效果好得多并达到了SOTA级别的生成质量。三、研究方法与原理该论文提出的模型核心思路是让神经网络直接预测“去噪后的图片”利用数学公式将其转换为“速度”再计算损失。因为图片通常位于低维流形上比杂乱无章的噪声或速度更容易被神经网络学习。【模型结构图】理论架构解析论文的方法建立在Flow Matching (FM)和MeanFlow (MF)的基础之上。在标准的Flow Matching中我们通常学习一个从噪声ϵ\epsilonϵ到数据xxx的速度场vvv。而在MeanFlow框架下为了实现一步生成模型需要学习两点时间之间的平均速度uuu。论文指出直接在像素空间预测这个平均速度uuu是非常困难的因为uuu本质上包含了大量噪声处于高维空间中。为了解决这个问题作者定义了一个新的量称为诱导场Induced Field或广义去噪图像x(zt,r,t)x(z_t, r, t)x(zt,r,t)。其数学定义如下x(zt,r,t)≜zt−t⋅u(zt,r,t)x(z_t, r, t) \triangleq z_t - t \cdot u(z_t, r, t)x(zt,r,t)≜zt−t⋅u(zt,r,t)这里的ztz_tzt是时刻ttt的噪声图像uuu是平均速度。这个公式的直观含义是如果你知道了当前的噪声位置和平均速度你就能推算出目标的“干净图像”在哪里。作者假设这个xxx位于一个低维图像流形上。具体的数学推导与算法流程为了让网络更好训练作者设计网络netθnet_\thetanetθ直接输出这个xxx即xxx-prediction。然后通过逆变换计算出对应的平均速度uθu_\thetauθuθ(zt,r,t)1t(zt−xθ(zt,r,t))u_\theta(z_t, r, t) \frac{1}{t} (z_t - x_\theta(z_t, r, t))uθ(zt,r,t)t1(zt−xθ(zt,r,t))训练时的损失函数依然是在速度空间定义的因为这符合微分方程的物理意义。结合MeanFlow的理论损失函数LpMFL_{pMF}LpMF定义为LpMFEt,r,x,ϵ∥Vθ−v∥2L_{pMF} \mathbb{E}_{t,r,x,\epsilon} \|V_\theta - v\|^2LpMFEt,r,x,ϵ∥Vθ−v∥2其中VθV_\thetaVθ是一个包含梯度的复合项定义为Vθ≜uθ(t−r)⋅JVPsgV_\theta \triangleq u_\theta (t-r) \cdot \text{JVP}_{sg}Vθ≜uθ(t−r)⋅JVPsg这里用到了一阶导数信息Jacobian-Vector Product来修正一步生成的轨迹vvv是真实的瞬时速度。此外由于网络直接输出的是像照片一样的xxx作者自然地引入了感知损失Perceptual Loss如LPIPS。这在以往的潜空间模型中通常只用于训练VAE而在这里直接用于训练生成器极大地提升了视觉质量实现了“所见即所得”的训练。四、实验设计与结果分析实验设置作者主要在ImageNet数据集上进行了实验涵盖了64×64、256×256和512×512三种分辨率。评测指标主要使用FID (Fréchet Inception Distance)来衡量生成图像的质量越低越好。模型架构基于Vision Transformer (ViT)并采用了改进的MeanFlow (iMF) 结构。所有生成结果都是一步生成1-NFE即只需要运行一次网络就能得到图片。预测目标的对比实验Prediction Targets这是论文中最核心的对比实验表2。作者比较了让网络预测xxx去噪图像和预测uuu平均速度的区别。在低分辨率64×64下两者差异不大。但在高分辨率256×256下由于像素空间维度爆炸uuu-prediction 彻底失败FID高达164.89而xxx-prediction 表现良好FID为9.56。这强有力地证明了在高维像素空间中预测位于低维流形上的图像xxx是成功的关键。消融实验Ablation Studies作者进一步分析了其他关键因素图3和表3优化器对比了Adam和Muon优化器。结果显示Muon收敛更快且最终FID更好从11.86降至8.71。感知损失在损失函数中加入LPIPS基于VGG或ConvNeXt。这一步带来了巨大的提升FID从9.56进一步降至3.53证明了利用像素空间特性引入感知监督的重要性。预处理器Pre-conditioner对比了简单的线性插值与EDM、sCM等复杂的预处理策略。结果发现在极高维输入下作者提出的简单xxx-prediction 策略反而优于那些复杂的参数化方法。系统级对比实验System-level Comparisons作者将pMF与当前最先进的生成模型进行了对比表6和表7ImageNet 256×256pMF达到了2.22 FID。这个成绩不仅击败了知名的GAN模型如StyleGAN-XL的2.30 FID也优于许多多步采样的潜空间扩散模型。更重要的是pMF的计算量Gflops远低于GAN和某些多步模型。ImageNet 512×512pMF实现了2.48 FID。值得注意的是通过增大Patch Size从16变为32模型在处理更高分辨率时并没有显著增加计算量展示了极佳的扩展性。相比之下潜空间模型光是解码器VAE Decoder的计算开销就非常巨大而pMF完全省去了这一部分。五、论文结论与评价总结本文结论这篇论文成功证明了在不依赖潜空间压缩Latent-free和多步采样的情况下仅通过一步网络推理直接在原始像素空间生成高质量图像是完全可行的。其核心结论是在高维像素空间中神经网络的学习目标应当被设计在低维数据流形上即预测xxx而非高熵的速度场。结合Pixel MeanFlow框架与感知损失该方法在ImageNet上取得了与最先进潜空间扩散模型相当甚至更好的成绩同时大幅简化了生成流程。实际应用与影响这项研究对生成式AI的实际应用有重要启示。首先它打破了“潜空间是必须的”这一思维定势意味着未来的图像生成模型可以省去训练和推理昂贵的VAE解码器实现端到端的“噪声进、图片出”。其次一步生成极大地提高了推理速度对于实时生成应用如视频生成、实时绘画具有巨大的工程价值。最后它为从头训练高效生成模型提供了一套简洁、标准化的范式。优缺点分析优点极简流程去掉了VAE和多步采样模型结构更简单推理延迟极低。高性能在一步生成的前提下画质达到了SOTA水平。训练直观像素级输出允许直接使用LPIPS等感知损失优化目标更符合人类视觉。缺点训练计算量虽然推理快但在像素空间训练高分辨率模型通常需要较大的显存和算力支持尽管作者通过大Patch Size缓解了这一点。对优化器敏感实验表明使用Muon优化器对结果有显著影响这可能增加了复现或调参的难度。虽然论文主张“无潜空间”但其处理高分辨率如512或1024时采用了非常大的Patch Size如32或64这在某种程度上其实也是一种“空间压缩”或“硬编码的潜空间化”。这引发了一个思考ViT的Patch Embedding是否就是一种线性的、非学习的潜空间编码此外论文假设xxx位于低维流形上这个假设在纹理极其复杂的图像中是否依然稳健值得进一步探索。总体而言这篇论文是生成式模型领域的一次重要“返璞归真”通过精妙的数学设计让最原始的像素生成焕发了新生。