美容网站制作缪斯国际设计董事长
2026/5/14 0:52:25 网站建设 项目流程
美容网站制作,缪斯国际设计董事长,东莞市58同城招聘,重庆建站管理系统价格青稞社区#xff1a;https://qingkeai.online/ 原文#xff1a;https://mp.weixin.qq.com/s/eRhlfm7yLkRvDz3MoFE7LQ随着 GenAI 视觉模型#xff08;如 Sora 2、Google Nano Banana#xff09;的爆炸式发展#xff0c;其惊人的效果背后是庞大的计算资源消耗。图像和视频模…青稞社区https://qingkeai.online/原文https://mp.weixin.qq.com/s/eRhlfm7yLkRvDz3MoFE7LQ随着 GenAI 视觉模型如 Sora 2、Google Nano Banana的爆炸式发展其惊人的效果背后是庞大的计算资源消耗。图像和视频模型的推理 FLOPs 甚至远超 LLM导致部署成本高昂难以普及。SANA系列模型作为高效生成式基础模型的前沿探索通过引入线性注意力Linear Attention等创新架构实现了在不牺牲质量的前提下极大地提升了处理超长序列和高分辨率生成任务的能力。线性注意力是处理超长序列的关键它将复杂度从 O(N2)O(N^2)O(N2) 降低到 O(N)O(N)O(N)。这不仅是一个数学上的优化更是解锁大语言模型LLMs和长视频生成无限上下文长度的关键SANA论文Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer 链接https://arxiv.org/abs/2410.10629 代码https://github.com/NVlabs/SanaSANA 是文本到图像T2I的框架。它的厉害之处在于能高效生成高达 4096 × 4096 的超高分辨率图像。Sana-0.6B 模型尺寸比一些大型扩散模型小 20 倍但吞吐量却快了 100 多倍。该论文被收录为 ICLR’25 Oral。它非常轻量可以在 16GB 笔记本电脑 GPU 上部署生成一张 1024 × 1024 的图像不到 1 秒。实现高分辨率靠的是深度压缩自编码器将图像压缩倍数提高到 32 倍以及用线性 DiT替换了所有传统注意力机制,。SANA 1.5[外链图片转存中…(img-kQpJKWqF-1765534255028)]SANA-1.5 是一种面向高效扩展的线性扩散 TransformerLinear Diffusion Transformer用于文本到图像生成任务。论文已被ICML’25 收录。论文SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer 链接https://arxiv.org/abs/2501.18427在 SANA 的基础上SANA-1.5 引入了三项关键创新第一高效训练扩展Efficient Training Scaling采用深度增长范式depth-growth paradigm将模型参数规模从 16 亿1.6B平滑扩展至 48 亿4.8B同时显著降低计算资源消耗该方法结合了一种内存高效的 8 位优化器8-bit optimizer大幅减少显存占用提升大规模训练的可行性。第二模型深度剪枝Model Depth Pruning提出一种基于模块重要性分析block importance analysis的技术可对模型进行高效压缩支持任意目标尺寸的裁剪且在压缩后仅需极少量微调即可恢复生成质量几乎不损失图像保真度。第三推理时扩展Inference-time Scaling通过重复采样策略在推理阶段以增加计算量为代价换取等效的模型容量提升使较小规模的模型在实际生成效果上逼近甚至媲美更大模型的表现。[外链图片转存中…(img-MaNaJZMe-1765534255028)]凭借上述策略SANA-1.5 在 GenEval 基准上取得了 0.81 的文本-图像对齐分数进一步结合推理时扩展技术该分数可提升至 0.96刷新了 GenEval 的当前最佳纪录SoTA。这些创新使得模型能够在不同计算预算下灵活缩放同时保持高质量输出从而让高性能图像生成技术更加普及和可及。SANA-SprintSANA-Sprint 是一种高效的扩散模型专为超高速文本到图像Text-to-Image, T2I生成而设计。该模型基于一个已预训练的基础模型并通过混合蒸馏技术将原本需要约 20 步的推理过程大幅压缩至仅需 1 到 4 步从而在保持高质量图像输出的同时实现毫秒级生成速度。成果已被收录为 ICCV’25 Highlight。论文SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation 链接https://arxiv.org/abs/2503.09641SANA-Sprint 的核心贡献包括以下三点第一提出了一种无需额外训练的方法可直接将预训练的流匹配flow-matching模型转化为适用于连续时间一致性蒸馏sCM的形式。这一方法避免了从头开始训练一致性模型所带来的高昂计算成本显著提升了训练效率。在此基础上团队进一步引入了混合蒸馏策略其中 sCM 负责确保学生模型与教师模型在整体分布上保持一致而潜在对抗蒸馏Latent Adversarial Distillation, LADD则专门用于提升单步生成结果的细节保真度和视觉质量。第二SANA-Sprint 是一个统一的步数自适应模型。这意味着同一个模型可以在 1 步、2 步、4 步等不同推理配置下均实现高质量图像生成而无需为每种步数单独训练专用模型。这种设计不仅简化了部署流程也提高了模型在不同硬件和应用场景下的灵活性与实用性。[外链图片转存中…(img-NgYYjgFa-1765534255029)]第三SANA-Sprint 成功集成了 ControlNet支持实时交互式图像生成。用户可通过边缘图、姿态图、深度图等条件对生成过程进行精细控制并在极短时间内获得反馈。在 NVIDIA H100 上ControlNet 模式的生成延迟仅为 0.25 秒充分满足了设计、创作等需要即时响应的交互场景需求。[外链图片转存中…(img-tdaccIjo-1765534255029)]在性能方面SANA-Sprint 在仅使用 1 步推理的情况下取得了 7.59 的 FID 分数和 0.74 的 GenEval 分数优于当前最快的 FLUX-schnell 模型FID 7.94GenEval 0.71。更重要的是SANA-Sprint 在 H100 上生成一张 1024×1024 图像仅需 0.1 秒比 FLUX-schnell 快约 10 倍后者需 1.1 秒。在消费级显卡 RTX 4090 上SANA-Sprint 的文生图延迟也仅为 0.31 秒展现出其在 AI PCAIPC等终端设备上的强大应用潜力。SANA-VideoSANA-Video一种轻量级扩散模型能够高效生成分辨率达 720×1280、时长可达一分钟的高质量视频。SANA-Video 在保持强文本-视频对齐能力的同时以极快的速度合成高分辨率、长时长视频并可在 RTX 5090 GPU 上部署。论文SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer 链接https://arxiv.org/pdf/2509.24695SANA-Video 的高效性与长视频生成能力源于两项核心设计第一线性 DiTLinear DiT我们采用线性注意力作为模型的核心运算单元。相较于传统自注意力机制线性注意力在处理视频生成中海量 token 时具有显著更高的计算效率。第二面向块线性注意力的恒定内存 KV 缓存Constant-Memory KV Cache设计了一种基于块的自回归生成方法利用线性注意力的累积特性构建一个恒定内存占用的状态缓存。该 KV 缓存使 Linear DiT 能够在固定内存开销下获取全局上下文信息无需传统 KV 缓存从而高效支持分钟级长视频生成。此外还探索了有效的数据过滤策略与模型训练方案将整体训练成本压缩至仅需 64 块 H100 GPU 训练 12 天约为 MovieGen 训练成本的 1%。得益于这一极低的训练开销SANA-Video 在性能上已可与当前先进的小型扩散视频模型如 Wan 2.1-1.3B 和 SkyReel-V2-1.3B相媲美同时实测推理延迟降低 16 倍。在推理端SANA-Video 支持在 RTX 5090 GPU 上使用 NVFP4 精度运行将生成一段 5 秒 720p 视频的时间从 71 秒缩短至 29 秒实现 2.4 倍的加速。12月16日周二晚8点青稞Talk 第98期香港大学MMLab博士生陈俊松将直播分享《SANA-Series探索图像视频扩散模型的高效设计与加速》。本次分享将聚系统介绍 SANAICLR 2025 Oral Presentation、SANA 1.5、SANA-Sprint和长视频生成SANA-Video, LongSANA一系列创新工作为视觉生成模型的普及化提供可行方案。分享嘉宾陈俊松香港大学MMLab博士生导师为罗平老师。在英伟达研究院实习由谢恩泽博士与韩松老师指导。研究方向为图像视频高效生成共发表高水平学术论文十余篇一作发表包括ICMLICLRICCVCVPR等业内顶级会议开源项目GitHub获stars 10k谷歌学术引用2000次获得国家奖学金KAUST AI新星等荣誉。主题提纲SANA-Series探索图像视频扩散模型的高效设计与加速1、视觉生成模型的计算瓶颈及其四大加速方向2、高效图像生成SANA SANA-Sprint- 高倍压缩、Linear Attention DiT与步数蒸馏3、SANA-VideoAR 与 Diffusion 结合生成长视频4、AMA Ask Me Anything环节直播时间12月16日(周二)20:00 - 21:00如何观看Talk 将在青稞社区【视频号青稞AI、Bilibili青稞AI】上进行进行直播欢迎学习交流

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询