莒南做网站百度2022第三季度财报
2026/6/6 3:33:37 网站建设 项目流程
莒南做网站,百度2022第三季度财报,凡科免费建站,企业代码查询平台在大模型和复杂AI系统不断演进的今天#xff0c;算力已经不再只是“硬件指标”的竞争。越来越多的工程实践表明#xff0c;真正决定系统上限的#xff0c;是算力是否能够被稳定、高效、可持续地释放出来。而在这一过程中#xff0c;算子开发#xff0c;正在成为连接算法、…在大模型和复杂AI系统不断演进的今天算力已经不再只是“硬件指标”的竞争。越来越多的工程实践表明真正决定系统上限的是算力是否能够被稳定、高效、可持续地释放出来。而在这一过程中算子开发正在成为连接算法、框架与硬件之间最关键、也最容易被低估的一环。从工程视角看算子并不是一个抽象概念。它直接决定了一个模型在特定硬件上的执行方式、内存访问路径、并行粒度与调度策略。也正因为如此算子开发长期面临一个现实困境它既是性能瓶颈的“放大器”也是开发效率的“拦路虎”。一方面算法工程师希望能够快速实现新算子、验证新结构不希望被硬件细节和底层调度牵制另一方面系统与性能工程师则希望对算子的执行细节拥有足够的控制权以便在关键场景下榨干硬件潜力。这两类诉求在实际项目中往往同时存在却又难以被同一套编程模式完整覆盖。12月23日在第二期《极简与极致多元算子编程范式带来的底层变革》直播中Ascend C SIG Maintainer黄金华、算子模板库 SIG Maintainer黄鑫、PyPTO架构师尹杰三位专家深入剖析了昇腾CANN如何通过多元算子编程范式平衡开发效率和极致性能的追求。他们指出昇腾CANN对算子编程体系的设计并没有简单地选择“更高层”或“更底层”其中一条路线而是从一开始就承认算子开发存在多维场景不同角色、不同阶段、不同性能目标对编程抽象的需求本身就是不一致的。如果强行用单一范式覆盖所有场景要么牺牲易用性要么牺牲性能上限最终反而限制了生态的发展空间。AI算子开发存在多维场景诉求多维场景下的整体架构设计正如黄金华所说基于对算子开发真实工程场景的长期观察CANN并未将算子编程视为一个单点工具问题而是从一开始就将其作为一套需要长期演进的整体体系来设计。其核心目标并非消除复杂性而是通过合理的分层与能力组合让复杂性在合适的层级被承接从而使不同类型的开发者都能够在自己熟悉、可控的抽象层面上完成算子开发工作。从整体架构上看CANN的算子编程体系以“硬件亲和分层抽象”为主线展开。所谓硬件亲和并不是要求所有开发者都直接面对微架构细节而是保证无论处于哪一层抽象最终写出的算子实现都能够尽量贴合昇腾AICore的硬件特性而分层抽象则意味着不同层级面向不同复杂度、不同目标的开发场景各层之间并非割裂而是可以逐级下沉、逐级深入形成一条连续的算子开发路径。在真实的工程实践中算子开发的复杂性并不仅仅来源于硬件本身更来源于开发场景的高度多样化。不同角色、不同阶段、不同性能目标对算子编程抽象层次的期望存在天然差异。这种差异最终会体现在开发范式的选取上而C/C与Python两种范式正是这种差异最直观、也是最普遍的体现。对于以性能为核心目标的场景而言算子往往处在系统关键路径之上需要对内存布局、并行粒度、执行顺序以及多核调度进行精细控制。在这一类场景中贴近硬件的C/C范式具备天然优势。它允许开发者直接对接底层资源自主设计Tiling、流水与调度策略是性能专家探索算力上限时不可替代的手段。而在以算法表达和功能验证为主的场景中算子更多承担的是“承载计算逻辑”的角色。算法工程师更关注算子本身的数学含义与组合方式希望能够以接近模型表达的方式快速实现新算法、验证新结构。在这一类场景下Python作为AI领域的事实标准语言其高表达力和生态完整性使其成为更自然的算子开发入口。开发者希望算子开发能够融入现有的Python工作流而不是成为需要单独学习和维护的低层实现。关键在于这两种范式并不是简单的语言偏好差异而是代表了两类本质不同的开发诉求一类以硬件能力为驱动强调可控性和性能上限另一类以算法创新为驱动强调开发效率和迁移成本。如果算子编程体系只能服务其中一类诉求势必会在另一类场景中形成掣肘。正因如此CANN在架构设计上并没有试图用单一范式覆盖所有算子开发场景而是将C/C与Python视为同一体系内并行存在、互为补充的两条能力主线并通过分层架构将二者有机地统一起来。在底层依托硬件语义抽象确保算子无论通过哪种范式编写最终都能高效映射到AICore上执行在上层则通过不同抽象层级承载不同复杂度和不同目标的开发需求。在偏性能导向的场景中开发者可以沿着体系向下深入基于C/C范式直接对接硬件能力对算子执行细节进行深度定制而在偏应用与算法导向的场景中开发者则可以停留在更高层的Python抽象之上通过描述计算逻辑完成算子开发而无需显式介入底层细节。这种设计并不是将两种范式简单并列而是使高层的Python表达能够逐步映射到底层的高性能实现同时也使底层沉淀的性能能力可以被上层范式复用和调用。在多维场景下这种架构设计带来了清晰而实际的收益。一方面它使算法工程师能够在不理解硬件细节的前提下完成算子功能开发和快速验证避免算子开发的门槛成为算法创新的阻碍另一方面它为追求极致性能的工程师保留了相对完整的操作空间在关键算子和关键路径上可以通过贴近硬件的方式进行自主优化。更重要的是这两类开发实际并不是割裂的同一个算子可以先在高层范式下完成初始实现当性能瓶颈显现时再沿着同一体系逐步下沉到模板库或Ascend C层进行针对性优化而无需推翻原有设计。因此CANN的多维场景架构设计本质上是围绕开发范式差异所做的一次系统性回应。它并没有试图消除C/C与Python之间的差别而是承认并利用这种差别通过统一的底层能力和分层的上层抽象使不同范式在同一算子编程体系中各司其职、相互协同。这种设计为算子开发提供了一条可渐进、可演进的路径也为后续多层级API能力的展开以及SIMD与SIMT融合编程特性的引入奠定了清晰的体系基础。多层级API的算子开发路径具体到API层面黄鑫介绍CANN的算子编程体系并非提供若干彼此独立的开发工具而是构建了一条清晰、可渐进的算子开发链路。Ascend C、算子模板库与PyPTO分别承接了不同层级、不同目标的开发诉求它们之间并非替代关系而是围绕“性能、效率与通用性”所形成的分工协作。从体系底部看Ascend C是整个算子编程架构中最接近硬件的一层。它以C/C风格的接口为核心围绕AICore的计算、访存、同步与调度能力构建了一套分层API体系从语言扩展层、微指令与基础API到以Tenso为核心的高阶API再到单核公共算法与多核算子组织能力。通过这套架构开发者可以在不同抽象层级介入算子实现既可以直接操作寄存器与向量指令进行极致性能探索也可以基于Tensor与Tile抽象完成更具工程可读性的实现。这种设计的关键价值在于它并没有为了易用性而牺牲性能上限。Ascend C保留了对Tiling策略、核内事件同步、多核调度和访存路径的完全控制权在关键算子和关键路径上始终能够“直达硬件”进行性能优化。与此同时通过逐层抽象Ascend C也避免了将所有复杂度一次性暴露给开发者使得算子实现可以在可控范围内逐步深入而非被迫从指令级起步。但在大量真实工程场景中可以看到真正需要从指令级、核级完全手写算子的情况始终只占少数。更多时候开发者面对的是高度相似、反复出现的计算模式例如GEMM、归一化、向量运算以及各类融合算子。如果每一次都从底层API开始实现不仅开发成本高昂也难以沉淀可复用的性能经验。这正是算子模板库在体系中的定位。以CATLASS为代表的算子模板库基于Ascend C的能力之上对高性能算子的实现经验进行了系统性的工程封装针对定制场景极致性能的开发场景呈现了具体的实践。它并不是简单地提供“现成算子”而是按照计算粒度将算子拆解为Device、Kernel、多核Block、Tile以及单条指令等多个层级并在每一层提供可组合、可替换、可定制的模板组件。开发者可以通过配置与拼装这些模块快速构建出适配自身场景的高性能算子同时只需在必要的层级进行定制优化。这种模块化、分层复用的设计使算子开发从“一次性实现”转变为“可持续演进”的工程资产。一方面它显著提升了开发效率使开发者无需重复实现成熟的流水与访存模式另一方面也为性能调优提供了清晰抓手使优化工作可以聚焦在真正决定性能的关键模块上。在实际生态合作中这一模式也已经体现出价值——例如在与高校团队的联合开发中研究人员可以在CATLASS的既有模块之上针对特定算子或特定场景进行定制实现并将优化成果反哺到模板库中从而让更多开发者在后续工作中直接受益。如果说Ascend C与算子模板库主要解决的是“在保证性能上限的前提下如何提高工程效率”那么PyPTO则从另一个方向切入回应了算法工程师对易用性与通用性的核心诉求。对此尹杰表示“PyPTO的设计目标是让算子开发能够尽可能贴近算法表达本身而不要求开发者显式感知硬件结构与执行细节。”在PyPTO中开发者只需描述算子的计算逻辑和控制流后续的并行切分、子图划分、内存复用以及硬件映射由编程工具在编译期和运行期自动完成。通过对计算过程的图级分析与优化PyPTO能够在不同平台上生成匹配硬件特性的高效实现使算子具备“一次开发、多端部署”的能力。这种跨平台设计使模型算子不再与具体硬件强绑定显著降低了迁移和维护成本。值得强调的是PyPTO的易用性并非以牺牲性能为代价。相反它将高性能算子开发过程中大量重复、模式化的工作内置到框架中通过自动化手段完成原本需要人工介入的优化流程。另一方面当开发者发现性能瓶颈时同一算子仍然可以下沉到模板库甚至Ascend C层进行针对性调优而无需推翻已有实现。这种自上而下可贯通的设计使算子开发在不同阶段具备连续性而不是割裂的工具切换。整体来看多层级API的设计并不是简单地提供“高、中、低”三套接口而是围绕不同开发角色与不同工程阶段构建了一条从性能直达、到工程复用、再到跨平台抽象的完整算子开发路径。开发者可以根据自身诉求选择合适的切入点并在需要时逐级深入。这种体系化的设计为算子开发在复杂AI工程中的规模化应用提供了稳定而可演进的技术基础。编程特性演进随着昇腾硬件能力的持续演进算子编程体系也在不断吸收新的执行范式以覆盖更加广泛、更加复杂的真实工程场景。其中引入SIMT编程能力并与现有SIMD能力形成融合是Ascend C在算子开发路径上的一次关键拓展。从能力层面看SIMT的加入并不是对既有SIMD路线的替代而是对算子表达能力的一次重要补齐。传统以SIMD为核心的编程模式在连续、规整、算术密集型计算中具备天然优势能够充分释放向量计算单元的吞吐能力而SIMT更擅长处理离散访问、复杂控制流和线程级协作等场景使原本难以高效向量化的逻辑可以以更自然的方式并行展开。二者在新一代硬件架构下形成互补关系共同覆盖了算子开发中“算术密集”与“逻辑密集”两类典型需求。在当前阶段昇腾提供的SIMT编程能力支持与业界相似的线程块模型、清晰的内存层次抽象以及必要的同步机制使开发者能够以熟悉的并行编程思路实现归约、筛选、稀疏访问、复杂后处理等算子。这使得一批过去在SIMD模式下表达成本较高、性能难以释放的算子类型更好地被优化、纳入到统一的高性能算子开发体系中。更具价值的是SIMT并非以孤立形态存在而是被纳入到Ascend C的整体多层级API体系之中。通过统一的编程接口和向量函数调用机制同一个算子Kernel内可以同时使用SIMT与SIMD两种执行模式由SIMT负责离散访问、控制逻辑与线程协作由SIMD承担连续规整的数值计算从而在单一算子内部实现“按问题选范式”的精细化分工。这种同构融合模式使算子开发不再被单一执行模式所限制而是可以根据计算结构自由组合能力进一步释放硬件潜力。从整体路径上看SIMT融合能力与此前构建的多层级API算子开发路径形成了自然承接。在Ascend C层SIMT为性能调优提供了新的表达手段使离散访存型算子能够在贴近硬件的前提下获得更好的可控性在算子模板库层这种能力为未来抽象更丰富的控制流模板、稀疏算子模板和融合算子模板提供了基础而在更高层抽象的PyPTO路径中SIMT所覆盖的算子类型也将逐步被纳入自动分析与优化的范围为“不感知硬件的一次开发、多端部署”提供更坚实的底层支撑。面向未来随着硬件与编译工具链的持续演进SIMT与SIMD的融合编程有望从“可用”进一步走向“可规模化复用”更多复杂算子模式可以被沉淀为可配置、可组合的模板能力上层编程模型可以在保持简洁表达的同时自动选择更合适的执行范式。这将进一步拉通从高层算子表达到模板化实现再到极致性能优化的完整链路使昇腾的算子编程体系在复杂场景覆盖能力与长期演进空间上具备更明显的体系优势。总体而言SIMT的引入并非一项孤立特性而是昇腾算子编程体系在“多层级API多执行范式”道路上的关键一环。它在巩固现有性能优势的同时显著拓宽了算子可表达边界也为后续生态能力的持续沉淀与扩展预留了足够的发展空间。从整体来看CANN所构建的并不是一套追求“炫技”的算子开发工具集合而是一条充分尊重工程现实的长期路径。它没有试图用一种抽象、一种语言或一种范式去统一所有人而是承认算子开发天然存在角色差异、阶段差异与目标差异并将这种差异内化为体系设计的一部分。通过多层级API的清晰分工CANN将“性能直达”“工程复用”和“跨平台抽象”串联为一条连续而可回溯的算子开发链路通过C/C与Python并行存在、互为补充的编程范式设计使算子开发既能融入主流AI工程流程又不牺牲性能探索的上限而通过SIMD与SIMT等新硬件能力的持续吸纳与融合体系本身仍在不断扩展算子可表达的边界为更复杂、更真实的应用场景提供支撑。更重要的是这种设计并没有割裂不同层级的开发者。同一个算子可以从高层封装起步在算法验证阶段快速落地可以在模板库中沉淀为可复用的工程资产也可以在关键路径上继续下沉交由性能专家进行极致优化。算子不再是“一次性工程”而是可以在同一体系中不断演进、持续积累的能力单元。从更宏观的视角看这条算子开发路径所解决的并不仅仅是“怎么把算子写快”而是“如何让算力真正可被规模化释放”。在AI算力逐步走向大规模部署和复杂应用的过程中硬件能力只有通过稳定、可演进的软件体系才能转化为可持续的工程价值。CANN所体现的正是一种以工程体系为核心、以长期演进为目标的算子编程思路。当算子开发不再依赖少数专家的经验堆叠而是能够被更多开发者理解、参与和复用当性能优化不再意味着推倒重来而是可以沿着既有路径逐步深入当新硬件能力能够自然融入既有体系而不是迫使生态反复迁移——算力才真正成为一种可以被持续释放的基础能力。这或许正是昇腾CANN多元算子编程体系在当下所展现出的更深层价值所在。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询