2026/5/18 21:27:30
网站建设
项目流程
长沙哪里有专业做网站,江苏seo推广网站建设,wordpress如何设置404,网站盈利的10种方式文章目录iReliable的定义为什么需要iReliableiReliable能解决什么问题iReliable架构介绍iReliable网络级高可靠技术iReliable设备级高可靠技术iReliable链路级高可靠技术iReliable的应用华为星河AI数据中心网络打造磐石高可靠架构#xff0c;通过iReliable技术实现全场景稳定可…文章目录iReliable的定义为什么需要iReliableiReliable能解决什么问题iReliable架构介绍iReliable网络级高可靠技术iReliable设备级高可靠技术iReliable链路级高可靠技术iReliable的应用华为星河AI数据中心网络打造磐石高可靠架构通过iReliable技术实现全场景稳定可靠保障客户业务零中断。iReliable技术从链路、设备、网络三个层级提供全方位的高可靠保障。iReliable的定义iReliable是华为星河AI数据中心网络的高可靠架构通过网络、设备、链路三个层级的高可靠技术实现毫秒级故障切换保障业务零中断。它是华为针对数据中心网络可靠性需求设计的架构旨在解决传统网络在静默故障、设备升级、链路中断等场景下的可靠性问题。为什么需要iReliable智能化已渗透至生活的方方面面从刷脸支付、智能客服到高清视频流、自动驾驶这些便捷的数字服务背后是人工智能的蓬勃发展、计算芯片与网络基础设施的强力支撑。数据中心的使命已发生根本转变从传统的数据存储和计算中心转变为企业的数字中枢和智能引擎。与此同时数据中心网络也从被动的传输管道升级为智能服务的提供者这无疑给数据中心网络带来了巨大挑战。业务连续性是重中之重网络需提供可靠基石数据中心承载着企业的核心业务任何网络故障都可能导致业务中断。例如银行、能源、交通等场景对网络的高可用性要求近乎苛刻。针对银行、能源、交通等重点行业各国政策法规对业务连续性提出了明确要求。以中国为例银监发[2011]104号文明确了银行业业务连续性中断事故的定级标准Ⅰ级特别重大运营中断事件、Ⅱ级重大运营中断事件、Ⅲ级较大运营中断事件。同时银监会在《商业银行数据中心监管指引》中进一步定义了6级灾难恢复能力商业银行重要信息系统灾难恢复能力应达到《信息安全技术信息系统灾难恢复规范》中定义的灾难恢复等级第5级含以上具体各级别能力指标如下。表1-1 RTO/RPO与灾难恢复能力等级的关系针对金融行业业务按重要性分为A类、A类、B类和C类其中A类和A类业务需实现同城双活部署确保RPO0数据中心切换数据不丢失。在可靠性方面金融行业对数据中心可靠性要求99.995%全年业务中断时间26.28分钟领先银行甚至提出 99.999%5个9 的更高标准。不同行业数据中心每小时的停机将带来巨大的经济损失例如金融行业每小时的停机将产生超过600万美元的损失。因此数据中心网络需要提升整体可靠性保障业务零中断。IT系统业务中断影响AI技术蓬勃发展要求网络具备极高可靠性随着AI技术的快速发展尤其是大模型的不断涌现算力需求呈现指数级增长。从早期的小规模模型到如今的千亿甚至万亿参数大模型其训练过程需要处理海量数据和复杂运算对数据中心的算力规模和性能提出了极高要求。同时随着AI应用场景的不断拓展推理需求也在迅速增长。在智能客服、智能安防、自动驾驶等领域实时推理能力是保证应用效果的关键。例如在自动驾驶场景中车辆需要在极短时间内完成传感器数据的推理分析并做出决策这要求数据中心能够提供低延迟、高并发的推理服务。在高性能计算和AI训练等场景中网络的丢包率和延迟必须达到极高的标准一次微小的丢包就可能导致任务性能下降或时间延长。此外云上承载着企业的核心业务要求网络具备极高的可靠性。任何一次人为操作失误或缓慢的故障响应都可能造成巨大经济损失。因此网络需要具备自动预测、发现和修复故障的能力以确保业务的连续性和稳定性。iReliable能解决什么问题华为iReliable架构致力于解决数据中心网络的可靠性问题主要应对链路中断、设备故障、网络静默故障等导致的业务中断从而提升网络可靠性。以下是iReliable技术在不同层级上解决的关键问题。网络级的可靠性问题当网络中出现静默故障导致的业务会话级异常例如链路故障、转发表项异常、转发器件异常、端口物理状态显示UP但无法转发流量以及配置错误等问题。这类故障被业界称为网络运维的“癌症”没有显性异常且不会触发告警定位困难。目前业界主要通过流量分析器采集数据检测异常然后依赖人工逐一排查和修复故障。然而这种传统的排障方式效率较低通常需要数十分钟到数小时的时间严重影响了业务连续性。设备级的可靠性问题随着业务发放速度的持续提升以及虚拟化技术如VM、容器等的引入网络流量的不确定性显著增加。然而当前的网络运维手段仍主要依赖传统网管和命令行方式进行查看和监控分钟级的网络监控手段已无法满足业务对秒级体验保障的要求。这种被动式的故障感知模式往往导致运维效率低下。在故障定位方面主要依赖专家经验通过多种辅助工具进行逐段定界、逐流分析和抓包定位这种方式不仅效率低下而且难以满足快速响应的需求。组网中故障链路切换在典型的CLOS组网中如上图所示交换机之间都有多条路径当一条链路出现故障的时候通过感知端口状态、路由收敛、转发路径切换等操作完成流量从故障链路到备用链路的收敛。但是这个时间一般在秒级。然而在AI场景里面每次通信时间在毫秒级别秒级时间内正常情况下已完成了多轮通信。如果依靠传统的路由收敛方式将极大影响AI计算效率。除了上述的挑战对于M-LAG传统升级方式升级过程中流量秒级中断无法满足业务连续要求。链路级的可靠性问题传统数据中心网络的聚合链路是单设备和单设备间的对接若链路出现故障或者对端设备故障设备或服务器将无法与对端设备继续进行通信。为了应对链路高可靠性的要求需要能满足其中一台设备整体故障业务流量仍能通过另一台设备正常转发。传统存储网络通常使用FCFibre Channel光纤通道其当前带宽普遍为32G/64G。在同城双中心的传输场景下如果客户需要实现400GE的互联需求将需要部署十条甚至几十条FC链路这将导致链路成本的极大浪费。相比之下以太网技术虽然能够实现100GE及400GE的互联带宽但在长距离传输中会面临新的挑战。在长距离传输中网络时延的增加会直接影响数据中心内部的反压技术效果。以一个标准的70公里同城数据中心为例其网络传输时延通常会超过1毫秒。这种时延水平将导致当前数据中心内部的存储反压机制几乎完全失效无法满足长距无损传输。iReliable架构介绍iReliable架构针对数据中心网络中可能对业务造成影响的关键点逐一提供了有针对性的解决方案。iReliable通过从链路级、设备级和网络级三个层面构建磐石高可靠架构实现了三级极速切换确保任意单点故障下业务零中断。iReliable技术覆盖了多个可靠性关键点相当于将“木桶”的多块短板逐一加长从而整体提升了全场景的可靠性水平。表1-2 iReliable的关键技术iReliable三级高可靠架构iReliable网络级高可靠技术下面详细介绍iReliable网络级高可靠技术包括DPCF、主备/双活出口容灾。DPCF针对静默故障DPCFData Plane Crossing Faults数据面故障穿越技术无需分析器和人工参与自动感知网络故障涵盖路由黑洞、ARP表项异常等业界无法自动检测的故障场景然后根据预置策略换路实现秒级路径切换。在金融、存储以及超算等关键场景保障业务秒级恢复效率是业界的上千倍。网络故障感知如下图所示TCP流量传输过程中发送端发送数据报文给接收端接收端成功接收到数据报文后会回复给发送端一个ACK报文表示确认接收到ACK确认号前面的所有数据。如果超过一定时间未收到ACK报文发送端设备会重传数据报文。设备针对ACL规则匹配的TCP流量建立流表如果设备重传数据报文的时间间隔超过用户设定的故障检测时间则判定超时故障从而实现网络故障感知功能。TCP的确认机制网络故障恢复如下图所示的传统三层组网服务器采用独立IP接入Leaf交换机部署为独立的三层网关承担二、三层流量转发Spine层部署为独立的三层设备与Leaf之间形成ECMP实现流量负载分担。这种组网主要应用于金融、存储和超算等无损场景。网络中一旦出现静默故障中断时间长对上层业务影响严重。比如对于在线交易类型应用如果出现持续丢包会导致交易失败甚至可能引发对端协议栈连接超时应用性能会出现明显大幅下降。部署DPCF功能后当业务流转发异常时设备能够自动感知故障同时快速切换到其他ECMP成员保障业务秒级恢复。DPCF传统三层组网主备/双活出口容灾主备出口在Multi-PoD场景中可以在多个数据中心都部署出口出口之间形成主备关系多个数据中心可共享主备出口。Multi-PoD场景中的主备出口示意图双活出口在Multi-PoD场景中可以在多个数据中心都部署出口出口之间形成双活关系负载分担本DC流量优先从本DC出口进出故障情况下出口可以切换至另一个DC。Multi-PoD场景中的双活出口示意图在多个数据中心和PoD之间通过网络级主备/双活出口容灾实现业务的自动切换确保业务连续性。iReliable设备级高可靠技术下面详细介绍iReliable设备级高可靠技术包括M-LAG无损升级、DPFR。M-LAG无损升级M-LAG无损升级是指在M-LAG成员设备升级前将流量切换到备份链路避免流量丢失实现业务不中断的升级方式。如下图所示交换机Leaf1和Leaf2组成M-LAGLeaf1、Leaf2设备通过动态路由协议接入网络服务器通过M-LAG双归接入。M-LAG无损升级示意图对Leaf1、Leaf2进行M-LAG无损升级的思路如下在Leaf1上调整路由Cost、调整路由发布优先级和设置下行接口Down等将Leaf1的流量切换至Leaf2确认Leaf1的流量切换至Leaf2后进行Leaf1升级待Leaf1升级完成后恢复Leaf1的路由Cost、路由发布优先级、下行接口Up等设置将流量切换回Leaf1参考上述步骤进行Leaf2升级最终完成整个M-LAG设备组的升级。DPFRDPFRData Plane Fast Recovery数据面故障快速恢复技术可以做到毫秒级收敛提供基于数据面的本地快收敛或远程快收敛。特性包含故障快速感知、故障本地快速收敛、故障通告生成、接收和中继处理、故障远程快速收敛以及表项老化处理。针对在线交易类关键应用场景尽量做到应用无感知的故障快速收敛效果即在链路故障发生时业务性能无明显下降。下面通过以下两个典型场景介绍DPFR的功能特性。场景1本地快速收敛该场景的特征是有多个下一跳。如下图所示Server3访问Server1的流量到达Leaf2以后Leaf2的下一跳可以选择Spine1或者Spine2。当Leaf2-Spine2的路径发生故障时可以在本地快速切换到Leaf2-Spine1路径。DPFR本地快速收敛场景2远端快速收敛该场景的特征是有一个下一跳。如下图所示Server1要访问Server3路径是Leaf1-Spine2-Leaf2。当报文到达Spine2以后实际只有一条链路可以到Leaf2。在此情况下如果Spine2-Leaf2路径出现了故障Spine2会通过发送通知报文给Leaf1Leaf1在本地完成路径切换切换到Leaf1-Spine1-Leaf2路径。iReliable链路级高可靠技术下面详细介绍iReliable链路级高可靠技术包括M-LAG、长距无损算法。M-LAG传统的聚合链路是单设备和单设备间的对接若链路出现故障或者对端设备故障设备或服务器将无法与对端设备继续进行通信。M-LAG的出现解决了上述问题它是将M-LAG系统不同设备上的端口聚合到一个逻辑接口中即使其中某台设备故障或其中一条聚合链路出现故障也不会导致聚合链路完全失效从而保证了数据流量的可靠传输。M-LAG在提升链路可靠性的同时还具备如下优势。M-LAG系统的两台设备在逻辑上被虚拟成一台设备它本身提供了一种没有环路的二层拓扑逻辑组网更清晰链路利用更充分。M-LAG两台设备可以独立升级实现效率高业务秒级中断的目标。因此对组网可靠性要求高对升级过程业务中断时间要求高的场景推荐使用M-LAG。M-LAG示意图长距无损算法在短距iLossless智能无损交换算法基础上增加了时空变量突破四维iLossless-DCI算法解决长距无损丢包难题。基于大数据的卷积预测将随机流量确定化提前应对流量变化从而实现了以太网在长距范围的无损传输。同时CloudEngine系列交换机支持MACsec加密保障跨数据中心数据输出的零泄露。长距无损算法iReliable的应用助力某车企实现网络升级零丢包保障生产连续性某车企的生产网络7x24小时不间断运行每分钟的停机都将造成数万美元的损失。在传统网络模式下客户网络部门需要与业务部门反复协调操作窗口而且每次设备升级中都不可避免会出现20-100ms的数据丢包严重影响生产业务的连续性难以满足客户的高可靠性要求。华为iReliable技术真正实现了链路切换业务零中断、网络升级零丢包的目标获得了客户的高度认可。该技术不仅显著提升了网络可靠性更大幅降低了维护人员在业务割接操作中的工作强度和风险为企业的持续稳定生产提供了有力保障。实现某银行业务永续保障金融级可靠性某银行在现网改造前面临核心网络设备老化、运维复杂度高、业务连续性难以保障等多重挑战。现网其他厂商设备临近生命周期终止原厂服务支持不足导致硬件可靠性下降故障修复周期延长威胁业务连续性。同时传统网络依赖命令行配置与人工排障网络扩容或业务变更需数周时间无法匹配金融业务快速迭代需求传统网络人工排障效率低小时级故障修复周期长威胁业务连续性。华为通过搬迁工具实现了从思科传统网络到华为SDN的平滑演进。华为iReliable技术增强了全网的可靠性任意节点故障毫秒级收敛保障金融业务零中断 满足高并发交易与实时清算的严苛要求。