性能再翻倍！科大讯飞联合华为在“飞星一号”上实现MoE模型大规模专家并行集群推理性能飞跃-CSDN.NET

CSDN首页> 业界

订阅业界RSS

性能再翻倍！科大讯飞联合华为在“飞星一号”上实现MoE模型大规模专家并行集群推理性能飞跃

发表于 2025-04-18 13:47:21

继不久前率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理，公布业界首个基于国产算力的MoE模型训练推理方案后，科大讯飞与华为昇腾联合团队持续攻关，通过多种优化手段提升“飞星一号”平台上MoE模型集群推理的性能上限，并在近期实现了大规模专家并行集群推理性能翻番。这也再次证明了国内广泛部署的国产算力“敢打、能打”的深厚实力。

在上一个版本算子和通信优化的基础之上，联合团队升级了适配MOE模型的PD分离+大规模专家并行系统解决方案，进行了以下技术创新工作：

●适配MoE的PD分离部署，通过定制集合通信协议，消除集合通信流量冲突，解决推理过程中Prefill阶段和Decode阶段的相互干扰，使得P实例和D实例均达到系统最优，性能提升20%+；

●实现国产算力上MTP多token预测技术，降低MTP层计算耗时，整体性能提升30%+；

●专家负载均衡算法再升级，多DP负载均衡，实现卡间负载均衡差异小于8%，集群推理吞吐性能提升30%+；

●创新性实现异步双发射技术，解决高并发下的高CPU负载问题，实现CPU和NPU的高效协同，降低服务请求调度耗时，系统性能提升10%。

基于上述解决方案的迭代与升级，通过在“飞星一号”平台上对星火MoE模型、DeepSeekV3/R1进行实测，实现了推理性能比上一个版本提升1倍，已逼近国产算力上MoE集群推理的性能上限，也大大加速了讯飞星火大模型的训练。

深度推理大模型讯飞星火X1也即将全新升级，作为业界唯一基于全国产算力训练的深度推理大模型，X1在数学、代码、逻辑推理、文本生成、语言理解、知识问答等通用能力上显著提升，以小一个数量级的参数规模，实现整体效果对标OpenAI o1和DeepSeek R1，这也再次证明了基于国产算力训练的全栈自主可控大模型具备登顶业界最高水平的实力和持续创新的潜力，期待大家的关注和体验。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】