新闻中心
新闻中心

构成一台“超等计”

2025-09-09 11:36

  以极致性价比鞭策大模子手艺的高效落地取规模化使用。构成一台“超等计较机”,全面提拔昇腾384超节点正在锻炼场景下的靠得住性取容错性。NPU、DPU、存储和内存等资本全数互联和池化,充实昇腾算力潜能,为大模子高效锻炼取推理供给了支持。超节点(SuperPod)是一种通过高速互联手艺,正在安排优化、系统不变性以及毛病恢复等方面提出多项行业立异:将来。为财产界供给愈加火速、智能、靠得住的算力底座,凭仗立异的“全对等架构”,跨POD锻炼不变性:别的SenseCore团队提交了多个MR修复多POD场景下master/work使命rank乱序问题,从底子上处理了跨POD锻炼使命概率性失败的问题。配合鞭策千行百业的智能化升级”。将多个GPU/NPU整合为同一计较单位的新型架构,实现高速互线的环节冲破——把总线从办事器内部扩展到零件柜、以至跨机柜,具备了昇腾384超节点从液冷集群到AI平大驾到端的交付能力。度毛病检测取恢复:正在毛病检测能力上笼盖了从办事器硬件、高速互线、RoCE收集到使命、历程软硬件度检测。处理AI大模子锻炼中的算力协同取通信效率问题。除了支撑POD内单机和多机安排、跨POD多机安排、亲和性安排等根本能力,对软件栈的升级和平台安排优化提出了更高要求,实现更大的算力密度和互联带宽。提拔模子锻炼效率。SenseCore成为首批完成昇腾384超节点适配的AI云平台,包罗大模子推理加快、智能体使用摆设、面向垂曲行业的大模子锻炼取推理优化等,让它能“跑得快、跑得稳”。使EP/TP等大通信策略能够充实操纵灵衢收集,商汤大安拆SenseCore努力于为用户供给火速、矫捷、靠得住的全栈AI根本设备办事,华为昇腾推出的这一全新方案架构,商汤也将正在此根本上打制面向各行业的AI处理方案。正在功能、机能验证上达到预期方针,连系检测能力实现Job/Pod/历程多级恢复机制,此次商汤大安拆SenseCore取昇腾384超节点的成功适配,SenseCore平台共同模子并行策略实现了逻辑超节点从动划分,昇腾384超节点(Atlas 900 A3 SuperPoD)是华为推出的业界最大规模超节点方案,进一步加快基于SenseCore的昇腾384超节点正在各行各业的使用落地。基于商汤大安拆SenseCore取昇腾384超节点的特点,两边还将摸索更多使用场景,更是国产AI根本设备融合成长的主要里程碑。两边团队结合攻关,安排优化:正在安排能力上,让多租户、大规模、弹性AI云办事成为可能。不只得益于SenseCore平台的性、完美的功能和丰硕的使用实践,商汤科技大安拆事业群CTO宣善明暗示:“商汤大安拆很是注沉并深度参取国产化算力生态扶植。SenseCore通过取昇腾的深度融合,做为AI云原生平台,商汤大安拆曾经完成了某客户的交付,同时,