华为深度解析,超大规模MoE模型昇腾推理部署,国产芯片推理性能突破新巅峰
华为近期全面揭秘了超大规模MoE(Mixture of Experts)模型在昇腾芯片上的推理部署技术,这标志着国产芯片在推理性能方面取得了新的突破。以下是相关内容的概述:
1. "超大规模MoE模型":MoE模型是一种新颖的神经网络架构,它通过将模型分解为多个专家子模型,实现了更高的并行性和效率。华为的这项技术将MoE模型扩展到了超大规模,使得模型在处理大规模数据时表现出色。
2. "昇腾芯片":华为的昇腾芯片是一款自主研发的AI芯片,具有高性能、低功耗的特点。昇腾芯片在推理性能方面一直处于行业领先地位。
3. "推理部署技术":华为针对MoE模型在昇腾芯片上的推理部署进行了深入研究,提出了高效的算法和优化技术。这些技术包括:
- "模型压缩":通过模型压缩技术,将MoE模型的大小减小,提高模型的推理速度。
- "并行推理":利用昇腾芯片的并行计算能力,实现MoE模型的快速推理。
- "动态调度":根据不同的推理任务,动态调整专家子模型的权重,提高推理性能。
4. "性能提升":通过这些技术,华为的MoE模型在昇腾芯片上的推理性能得到了显著提升。与传统的MoE模型相比,华为的模型在保持相同精度的前提下,推理速度提高了近
相关内容:
推理部署,成为大模型落地重中之重从2017年Google提出Transformer——这一人工智能中最常用的神经网络架构,到DeepSeek V3/R1在2025年春节一夜爆火,超大规模MoE架构大模型的重点逐渐从训练开发转向推理支撑的应用落地。推理场景是大模型认知能力的"试金石",是大模型商业化落地的核心能力,从抢先上线DeepSeek模型到API服务价格战,在推理为王的时代,谁能最极致的提升推理部署计算效率,谁才能真正获得大模型商业成功。数学补物理,极致提升计算效率“数学补物理” ,通常指通过数学理论、算法和建模方法,弥补传统物理设备开发在复杂系统分析、大规模计算或多场耦合问题中的局限性。华为轮值董事长孟晚舟曾在2025年新年致辞中提到:“华为十多个实验室与伙伴们的工程师组成“大杂烩”团队,面对天成AI集群系统和单芯片性能的严峻工程挑战,他们创造性应用数学补物理、非摩尔补摩尔、系统补单点等思想,在散热、供电、高速、高密及大芯片在板可靠性等工程领域突破极限。”华为技术团队面向超大规模MoE模型的推理技术优化也是围绕着数学补物理这一思路,充分发挥等价数学变换,也就是在保持数学对象本质属性不变的前提下,通过代数变形、逻辑转换或结构重构等方式提升计算效率的方法,极致的提升了硬件集群的计算效率,包括从点到面的推理框架侧优化技术,把数学最优实现变为物理最优的FlashComm通算优化技术,把串行计算变成四流并发的通算极致掩盖技术,以加法代乘法昇腾MLA最优实现,硬件感知亲和的大量创新算子等一系列核心技术孕育而生,并将通过一连串的技术报告首次全面披露这些宝贵的技术细节。开源共享,打造持久的开放协作生态昇腾生态的建设不是一次性的工作,而这次昇腾超大规模MoE模型推理部署技术的揭秘,除了通过技术报告分享昇腾在超大规模MoE模型的推理部署技术之外,在不到一个月的时间之后,实现这些核心技术的相关代码也都会陆续开源出来, 欢迎关注https://gitcode.com/ascend-tribe/ascend-inference-cluster 中的持续更新。在与业界分享技术思路的同时,也通过开源的方式共同打造长期持续的开放协作生态环境,让昇腾亲和的技术能力通过这些开源项目真正的活跃起来,这体现出华为坚定建设开放生态的决心,让所有愿意尝试使用昇腾能力的专家有信心长期投入,也让所有积极参与贡献的开发者有信心持续耕耘,一起努力让昇腾生态在中国茁壮成长。超大MoE类模型推理的挑战拥有6710亿参数,采用混合专家架构,在各种榜单表现出色的DeepSeek V3某种程度上代表了大模型发展的一个新趋势,即基于软硬件协同优化的模型架构,能够最大性能的发挥硬件平台的能力,在多种任务中表现出色,包括自然语言理解、代码生成和数学推理。我们暂且把DeepSeek V3为代表的大模型统称为超大MoE类模型。尽管在性能上表现出色,并且有着大量开源的模型权重以及很多的包括DeepEP等在内的工具类项目,但对于想使用这类大模型的企业来说,能够部署完整版本的超大MoE类模型目前依旧面临多重挑战:首先,硬件部署规模要求更高。现在我们在和大模型进行交互聊天的时候,无时无刻不在使用大模型的推理。而由于其自身的尺寸规模,这不再是此前小尺寸模型在单机多卡甚至单机单卡就可以运行能够相比的。硬件集群逐渐成为“满血版”超大MoE类模型的标配。其次,模型规模庞大对推理效率提出了高要求。庞大的专家数量给硬件内存使用效率提出了很大挑战,需要合理的分布式并行和通信策略设计,才能将如此大量的专家有效的跑在硬件集群上。再次,超大MoE类模型的诸多架构创新,也带来了很多实际部署上的困难。比如其多头隐式注意力机制(MLA - Multi Head Latent Attention),虽然可以通过将原有的注意力机制的键值对通过一个投影矩阵压缩到一个较小的隐式向量空间中,但这种创新也为算子优化带来了新的挑战,比如其带来了中间变量膨胀且向量计算占比显著增加,这样给硬件对计算的加速提出了新的要求。昇腾使能技术对大模型集群推理的极致创新为了解决如上提到的实际部署中遇到的问题,从模型和算子两个方面入手,我们基于昇腾硬件和组网方式,提出了多个亲和的优化策略,开发出了一整套面向集群的大规模专家并行的解决方案。昇腾服务器有多种配置和型号,我们针对近期发布的CloudMatrix 384 超节点和Atlas 800I A2 推理服务器两种典型机型进行部署。为了解耦prefill 阶段的首token 时延约束和decode 阶段的解码时延约束,我们采用PD 分离部署的方式。


1.推理框架侧优化技术
1) API Server 扩展技术团队提出了API Server 扩展技术,通过支持API Server 水平扩容策略,可以有效提升框架请求处理能力,降低用户请求延迟,提高系统吞吐量(QPS)。结合包括组网方案优化和全并行、全异步前后处理,可进一步实现最佳TTFT,提升推理服务的可用性与处理效率。
2)MoE模型负载均衡
团队提出了一种高效的负载均衡策略,通过动态负载均衡,热专家冗余部署,实时调度和动态监控等核心技术,显著提升MoE 模型推理性能。
2. FusionSpec推理投机加速技术
在实际应用中,投机推理技术更多聚焦于小批量(batch)低时延场景,如何将其高效应用于高吞吐量场景并实现性能收益最大化,成为当前亟待攻克的技术难题。投机推理提升了模型解码阶段的计算密度,天然匹配昇腾高计算带宽比的特点。为了能够充分发挥昇腾算力大的优势,在低时延大并发场景下实现高吞吐,我们提出了投机推理引擎FusionSpec 深度优化MTP 在昇腾上的推理性能:- 在推理流程上,将投机模型置于主体模型之后,直接使用主体模型的输出,并复用主体的控制参数,大幅减少了框架耗时,并亲和PD 分离的部署场景。
- 为了在投机推理开启时进一步发挥Ascend 的计算能力,减少NPU 的空闲时间,我们对投机推理的框架、采样(sampler)操作、多头潜在注意力(MLA)计算进行了优化。
3.FlashComm通信优化技术
FlashComm :主流张量并行(TP)中使用AllReduce 进行通信的方案存在通信次数多,通信数据量大,通信数据格式比特数高等问题,且AllReduce 之后的如残差连接和归一化计算存在计算冗余,没有充分利用多卡并行能力。为此,我们提出FlashComm 网络通信方案:我们针对Deepseek 网络前三层稠密MLP 层,基于相同的集合通信逻辑将张量并行中的AllReduce 通信算子进行替换,并对通信算子在网络中位置进行编排,实现了低比特和低维度数据通信,从而有效降低了通信数据量和通信时延,并消除了网络中存在的冗余计算。层内并行转换技术:在FlashComm 的基础上,为进一步优化通信算子的时延,我们提出层内并行转换的优化方案:我们针对Prefill 阶段网络MLA 层重新设计了单层内使用的并行策略,灵活做到张量并行(TP)与数据并行(DP)的转化,消除节点内卡间求和的需求,且充分利用网络低数据维度和量化特性实现节点间通信量的大幅降低,从而显著优化了通信时延。计算通信并发:昇腾芯片提供了计算和通信的并发机制。MoE 层的计算过程中需要使用AllGather 汇聚各张卡上的Token 的特征进行激活专家的筛选和计算。我们的方案中,对于Gate 函数使用先计算后通信汇聚的方法,对共享专家使用DP 的方式,从而保证了Gate 函数的计算和通讯、共享专家的计算,以及特征汇聚的AllGather 函数之前没有依赖关系。我们利用昇腾的多流机制,将这三部分进行并发处理,从而最大化推理模型的性能。特别的,模型部署方面可以根据不同的需要进行更细致的设计,比如为了能更好的节省内存,共享专家可以采用机内TP 机间DP 的方式,共享专家的计算仍然可以和机间AllGather 通信或者其他机器传输来特征的机内通信进行并发掩盖。通信通信并发:昇腾芯片也提供了通信和通信并发的机制。当通信带宽利用率比较低的时候,可以把两个通信算子并发起来以掩盖通信算子的启动开销,同时提高通信带宽的利用率。DeepSeek 模型在进行AllGather 等通信时,可以将Norm 算子和量化算子移到AllGather 通讯的前面,从而降低通信的数据量,进而提高通信的效率。但是由于量化算子的前移,需分别通信量化后的激活值和scale,进而增大了通信算子启动开销。由于scale 的数据量较小,对带宽的占用极低,因此我们采用通信通信并发的机制,将通信激活值和通信scale 并发起来,在不增加激活值通信开销的前提下,掩盖掉scale 的通信代价。通信和权重预取的并发:昇腾芯片提供了缓存机制,算子在进行计算时,会优先从缓存中寻找数据,如果存在,则直接从缓存中读取数据,否则从HBM 中读取数据,而缓存的带宽是HBM 带宽的几倍。由于通信算子进行过程中HBM 带宽占用率较低,我们在通信算子进行过程中可以将后续算子需要的权重提前预取到缓存中,从而降低后续算子计算过程中的权重搬运开销。同时昇腾芯片支持灵活限定预取带宽,因此在通信过程中预取对通信性能影响很小。对于DeepSeek 模型我们在MoE 结束的ReduceScatter 预取MLA 中权重矩阵和KV cache,可以提升MLA 部分的计算性能。
- 提出AMLA(Ascend MLA)算法,通过浮点二进制编码解析及原子累加操作实现乘性计算的加性等价转换,从而实现直接在Global Memory 上更新O 的步骤,无须进入Vector core,大幅降低中间变量的重复搬运。
- 对L1 缓存进行了细致规划,尽可能地减少数据重复搬入搬出的过程。
- 在工程实现方面,通过优化计算流程提高L2 cache 命中率,并且利用K-buffer 流水排布等策略,实现Cube 计算和Vector 计算互相掩盖,提高了算子整体性能。
- 在Prefill 阶段,我们通过双流并发等技术实现了流水掩盖,同时增加了FA 算子对多种输入输出模式的支持以消除纯访存类冗余算子。
- 在Decode 阶段,我们采用权重吸收,同时将前序算子深度融合为MLAProlog 算子,并且针对昇腾硬件架构进行了全方位的深度优化。

1