个人网站建设案例教程网站建设验收期
2026/5/18 10:12:27 网站建设 项目流程
个人网站建设案例教程,网站建设验收期,精美ppt模板免费下载百度文库,中国建设领域专业人员网站为了更好地了解英伟达基础KV缓存扩展基础设施——ICMSP#xff08;推理上下文内存存储平台#xff09;#xff0c;我们向英伟达询问了关于Vera Rubin Pod机架的问题#xff0c;整理出ICMSP方案的初步概况。上方图像截取自黄仁勋在2026年CES演讲中约1小时20分钟处#xff0…为了更好地了解英伟达基础KV缓存扩展基础设施——ICMSP推理上下文内存存储平台我们向英伟达询问了关于Vera Rubin Pod机架的问题整理出ICMSP方案的初步概况。上方图像截取自黄仁勋在2026年CES演讲中约1小时20分钟处展示了Vera Rubin SuperPod。右侧两个机架圆圈标记在图形下半部分被放大显示。最右侧的机架是用于Pod间网络连接的网络交换机组。左侧的BlueField-4BF4机架包含ICMSP存储柜安装在一对Spectrum-X以太网交换机下方。英伟达技术博客表示ICMSP存储延迟敏感、可重复使用的推理上下文并将其预置以提高GPU利用率。需要注意的是一个Vera Rubin计算托盘包含2个Vera CPU、4个Rubin GPU、4个ConnectX-9 Spectrum-X超级网卡提供可预测的低延迟和高带宽RDMA连接以及一个BlueField-4BF4DPU来处理存储和安全。该DPU同样包含ConnectX-9技术。英伟达告诉我们BF4机架在Spectrum-X交换机下方包含16个存储柜。每个存储柜包括4个BlueField-4总共64个BF4。黄仁勋在演讲中表示每个BlueField-4后面有150TB的上下文内存。总计为16×4×150 9,600TB。英伟达表示一个Vera Rubin SuperPod中有16个NVL72 GPU机架每个机架容纳72个Rubin GPU总计1,152个Rubin GPU。英伟达告诉我们推理上下文内存存储基础设施可为每个GPU支持最多16TB。换句话说该基础设施可以支持1,152×16 18,432TB的上下文内存。我们了解到存储基础设施的唯一目的是服务推理上下文内存。它不做其他任何事情。黄仁勋表示单个ICMSP存储柜包含4个BF4每个BF4后面有150TB的NVMe SSD容量。当客户购买Vera Rubin SuperPod时谁提供存储柜英伟达告诉我们Vera Rubin Pod的存储基础设施是由我们的存储合作伙伴基于英伟达参考设计进行设计、构建和交付的。ICMSP是G3.5层在Pod内机架G3层和Pod外G4层之间架起桥梁。英伟达技术博客表示像英伟达Dynamo这样的推理框架使用其KV块管理器与英伟达推理传输库NIXL协同工作编排推理上下文在内存和存储层之间的移动使用ICMS作为KV缓存的上下文内存层。这些框架中的KV管理器预置KV块在解码阶段之前将其从ICMS引入G2或G1内存。我们了解到当与运行KV I/O平面的英伟达BlueField-4处理器结合使用时系统高效地终止NVMe-oF和对象/RDMA协议。英伟达博客表示在推理层英伟达Dynamo和NIXL管理预填充、解码和KV缓存同时协调对共享上下文的访问。在此基础上使用英伟达Grove的拓扑感知编排层在机架间放置工作负载具有KV局部性感知能力使工作负载在节点间移动时仍能继续重用上下文。在计算节点级别KV分层跨越GPU HBM、主机内存、本地SSD、ICMS和网络存储为编排器提供容量和延迟目标的连续体来放置上下文。将这一切连接在一起Spectrum-X以太网将Rubin计算节点与BlueField-4 ICMS目标节点连接提供持续低延迟和高效网络将闪存支持的上下文内存集成到服务训练和推理的同一AI优化结构中。我们理解ICMSP存储柜是JBOFJust a Bunch of Flash。控制和管理它们的软件关注为在Vera Rubin SuperPod中一个或多个GPU上运行的AI工作负载提供KV缓存记录即键值对存储。这些使用GPU的高带宽内存HBM和CPU的DRAM在2层方案中保存上下文内存这些数据将通过加载和存储指令访问而不是存储语义。我们理解需要某种专门的FTL闪存转换层软件/固件将KV缓存内存寻址转换为ICMSP提供的3.5 KV缓存层中NVMe SSD基于存储的寻址。英伟达博客表示英伟达DOCA框架引入了KV通信和存储层将上下文缓存作为KV管理、共享和放置的一流资源利用KV块和推理模式的独特属性。DOCA接口推理框架BlueField-4高效地在底层闪存介质之间传输KV缓存。KV缓存专用存储柜需要做好一件事即保存低延迟、高带宽缓存数据这不涉及提供基于存储的数据服务如快照、复制、数据缩减等。然而许多存储供应商正在与英伟达在其ICMSP工作中合作在黄仁勋的ICMSP演讲中展示了Cloudian、DDN、戴尔、HPE、日立Vantara、IBM、Nutanix、Pure Storage、VAST Data和WEKA的标志。英伟达指出通过利用标准NVMe和NVMe-oF传输包括NVMe KV扩展ICMS在为KV缓存提供专门性能的同时保持与标准存储基础设施的互操作性。他们的存储产品将连接到ICMSP存储柜为其中的数据提供数据服务如通过Pod外网络链路以较慢速度访问的KV缓存数据存储的进一步分层——上图中的G4层。英伟达技术博客表示随着大部分延迟敏感的临时KV缓存现在从G3.5层提供服务持久的G4对象和文件存储可以为真正需要长期持久化的内容保留。这包括非活动多轮KV状态、查询历史、日志和多轮推理的其他工件可能在后续会话中被调用。英伟达表示DOCA框架支持更广泛编排的开放接口为存储合作伙伴提供灵活性将其推理解决方案扩展到覆盖G3.5上下文层。我们注意到VAST Data已将其软件移植到BlueField-3处理器其Ceres数据存储柜具有BF3硬件控制器。毫无疑问我们将看到Ceres的BF4版本。我们是否会看到上述其他存储供应商中的部分或全部将其存储软件移植到BF4这是一个有趣的问题——我们还没有答案。附注我们认为ICMSP存储柜中使用的SSD出于速度考虑很可能是PCIe Gen 5。可以在此处阅读关于英伟达ICMSP的信息丰富的博客。它指出英伟达的Dynamo软件提供KV块管理。这包括原生支持从GPU内存中驱逐KV缓存将其卸载到CPU内存或外部存储并稍后检索。博客作者补充道其中一个关键部分是名为NIXL的新异步传输库它允许KV缓存移动到内存层次结构中的任何位置——HBM、Grace或Vera CPU内存或完全离架存储——而不中断正在进行的GPU计算。英伟达KV缓存分层方案中的G3层是Hammerspace所称的零层。QAQ1ICMSP是什么它的主要功能是什么AICMSP是英伟达的推理上下文内存存储平台它是一个G3.5层存储延迟敏感、可重复使用的推理上下文并将其预置以提高GPU利用率。它的唯一目的是服务推理上下文内存为AI工作负载提供KV缓存存储。Q2Vera Rubin SuperPod的存储容量有多大A一个Vera Rubin SuperPod包含1,152个Rubin GPUICMSP基础设施可为每个GPU支持最多16TB总计可支持18,432TB的上下文内存。单个BF4机架包含9,600TB的存储容量。Q3英伟达如何管理KV缓存在不同存储层之间的移动A英伟达使用Dynamo推理框架和NIXL异步传输库来管理KV缓存。这些工具可以让KV缓存在内存层次结构中移动——从GPU HBM到CPU内存再到外部存储而不中断正在进行的GPU计算。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询