昇腾大规模跨节点专家并行（大EP）集群推理方案之低时延通信解密-CSDN.NET

CSDN首页> 业界

订阅业界RSS

昇腾大规模跨节点专家并行（大EP）集群推理方案之低时延通信解密

发表于 2025-03-12 22:32:31

昇腾联合科大讯飞推出业界首个自研算力的推理集群解决方案，使用大规模跨节点专家并行（大EP）策略，将庞大的专家模型拆解为多个子专家，并分配到不同计算节点上独立执行，有效降低了单节点内存要求，实现了更低时延下的更大吞吐量。

　　然而，这种大EP并行策略，带来了更复杂的推理系统，并对通信时延提出更高要求，尤其表现在跨节点AllToAll数据分发传输，带来更多的通信开销。昇腾通过以下三个维度的通信优化方案，有效实现技术突围。

　　一、Prefill micro-batch双流并行：计算和通信相互掩盖，性能提升20%+

　　LLM大模型在推理的Prefill阶段，由于输入序列长度（SeqLen）较长，其性能主要受限于计算耗时——随着BatchSize增加，推理计算耗时呈线性增长。同时，Prefill阶段的通信数据量为BatchSize * SeqLen * HiddenSize，随着BatchSize和序列长度的增加，通信数据量也显著增加，导致通信耗时占总耗时的20%~30%。

　　昇腾给出了优化策略，将Prefill的Batch拆分为多个更小的micro batch。如下图所示，通过将micro batch之间的计算和通信过程进行重叠，在计算耗时较长的情况下，将通信耗时完全掩盖，实现20%+的性能收益。

　　二、Weight预取双流并行：访存、通信并行，性能提升10%+

　　在推理的Decode阶段，权重（Weight）加载耗时较长，主要原因包括两方面：

　　Weight需要频繁访问高带宽内存（HBM），导致访存开销较大；

　　AllToAll通信操作占用大量带宽，进一步加剧了性能瓶颈。

　　针对该问题，利用昇腾910系列硬件L2 Cache层的大容量、高带宽特性，预取Weight并存储到L2 Cache中，实现通信与Weight加载并行，从而加速后续的Cube运算，显著降低了Weight加载时间，同时提升了Matmul算子的性能，整网性能提升10%+。

　　三、多算力软硬协同通信算法：整网性能提升100%

　　DeepSeekV3-671B满血版模型运行时，通信耗时占整网耗时60%+：

　　AllToAllV算子需要处理各卡负载不均的通信传输，其分级实现依赖前置算子（如AllGather）来获取全局数据大小和内存偏移矩阵，会额外引入通信开销和stream同步耗时；

　　由于通信数据量较小，算子下发时间较长，导致Host Bound问题突出；

　　AllToAll分级分层算法的步骤复杂，RDMA前后的同步操作增加了额外的RTT时延。

昇腾提出多算力软硬协同通信算法，主要包含以下三大特性：

　　Host CPU/AI-V/AI-CPU/RoCE多算力负载协同，实现异步并发；

　　随数据发送同步信号，实现同步次数削减至理论极限（一次）；

　　直调RoCE发送接口，bypass Device侧调度和内核态陷入，极致提升模型通信效率。

　　通过该通信算法，实现整网耗时降低50%，大幅提升模型性能。

　　昇腾未来演进思考

　　昇腾将继续探索MoE模型的通信优化。我们将充分利用昇腾硬件上AIV/AI-CPU的多核并发能力，加速通信任务的下发和并发传输；同时，探索通信算子与其他计算算子更细粒度的通算融合，减少或掩盖启动和传输的开销，为更多的客户、伙伴提供更强大的技术能力。

「免责声明」：以上页面展示信息由第三方发布，目的在于传播更多信息，与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担，以上网页呈现的图片均为自发上传，如发生图片侵权行为与我们无关，如有请直接微信联系g1002718958。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】