昇腾联合科大讯飞推出业界首个自研算力的推理集群解决方案,使用大规模跨节点专家并行(大EP)策略,将庞大的专家模型拆解为多个子专家,并分配到不同计算节点上独立执行,有效降低了单节点内存要求,实现了更低时延下的更大吞吐量。
然而,这种大EP并行策略,带来了更复杂的推理系统,并对通信时延提出更高要求,尤其表现在跨节点AllToAll数据分发传输,带来更多的通信开销。昇腾通过以下三个维度的通信优化方案,有效实现技术突围。
一、Prefill micro-batch双流并行:计算和通信相互掩盖,性能提升20%+
LLM大模型在推理的Prefill阶段,由于输入序列长度(SeqLen)较长,其性能主要受限于计算耗时——随着BatchSize增加,推理计算耗时呈线性增长。同时,Prefill阶段的通信数据量为BatchSize * SeqLen * HiddenSize,随着BatchSize和序列长度的增加,通信数据量也显著增加,导致通信耗时占总耗时的20%~30%。
昇腾给出了优化策略,将Prefill的Batch拆分为多个更小的micro batch。如下图所示,通过将micro batch之间的计算和通信过程进行重叠,在计算耗时较长的情况下,将通信耗时完全掩盖,实现20%+的性能收益。
二、Weight预取双流并行:访存、通信并行,性能提升10%+
在推理的Decode阶段,权重(Weight)加载耗时较长,主要原因包括两方面:
Weight需要频繁访问高带宽内存(HBM),导致访存开销较大;
AllToAll通信操作占用大量带宽,进一步加剧了性能瓶颈。
针对该问题,利用昇腾910系列硬件L2 Cache层的大容量、高带宽特性,预取Weight并存储到L2 Cache中,实现通信与Weight加载并行,从而加速后续的Cube运算,显著降低了Weight加载时间,同时提升了Matmul算子的性能,整网性能提升10%+。
三、多算力软硬协同通信算法:整网性能提升100%
DeepSeekV3-671B满血版模型运行时,通信耗时占整网耗时60%+:
AllToAllV算子需要处理各卡负载不均的通信传输,其分级实现依赖前置算子(如AllGather)来获取全局数据大小和内存偏移矩阵,会额外引入通信开销和stream同步耗时;
由于通信数据量较小,算子下发时间较长,导致Host Bound问题突出;
AllToAll分级分层算法的步骤复杂,RDMA前后的同步操作增加了额外的RTT时延。
昇腾提出多算力软硬协同通信算法,主要包含以下三大特性:
Host CPU/AI-V/AI-CPU/RoCE多算力负载协同,实现异步并发;
随数据发送同步信号,实现同步次数削减至理论极限(一次);
直调RoCE发送接口,bypass Device侧调度和内核态陷入,极致提升模型通信效率。
通过该通信算法,实现整网耗时降低50%,大幅提升模型性能。
昇腾未来演进思考
昇腾将继续探索MoE模型的通信优化。我们将充分利用昇腾硬件上AIV/AI-CPU的多核并发能力,加速通信任务的下发和并发传输;同时,探索通信算子与其他计算算子更细粒度的通算融合,减少或掩盖启动和传输的开销,为更多的客户、伙伴提供更强大的技术能力。
「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。
