在本地环境部署满血版 DeepSeek - R1 671B 全量模型,对硬件资源有着极为严苛的要求。其FP16文件体积高达1.3TB,如此庞大的权重数据,在大规模跨节点专家并行(简称大EP)集群推理过程中,面临两大核心挑战:
权重内存占比高,消耗更多硬件资源
权重访存开销高,影响吞吐性能
昇腾针对大EP集群推理场景,量身定制了INT8混合量化、MLA与MOE模块分离量化的解决方案,既保住了DeepSeek-R1 671B模型的精度性能,同时还把模型的计算效率和资源占用问题轻松搞定,使得模型在实际应用中显著减少硬件资源消耗,大幅降低开发者和企业的部署成本。
昇腾的解决方案
MLA模块量化:W8A8静态量化,权重压缩2倍。
MLA各网络层存在激活异常值(outliers),数据分布范围过于分散INT8 量化在兼顾动态范围与数值精度上存在困难,尤其在执行静态量化时,量化难度较大。针对不同的激活分布,采用不同的缩放因子计算方式,在量化校准阶段,通过自适应校准等算法(MxQuant),可提升异常值抑制的效果。
通过对数据分布的平滑处理,可有效降低INT8量化误差。
DeepSeek 模型进行 MLA 模块量化时异常值的抑制效果
MOE模块量化:W8A8动态量化,权重压缩2倍。
如下图所示,MOE在线动态量化流程复杂而精细,由于不同专家参数分布不同,路由分发的激活数据也不同,需要分别对异常值抑制与在线量化进行计算,确保自适应保持最佳量化精度。此外,输入激活INT8量化之后,Dispatch可支持INT8通信,通信量减少50%,有助于降低大EP并行的通信开销。
模型量化关键流程
针对DeepSeek-R1的W8A8动态量化方案,大体分为三步:
1、离群值抑制
通过抑制量化过程中的激活异常值(outliers),缓解激活量化难度,让后续的量化效果更优。
2、量化参数的选择
激活值量化方式选择Min-Max方式;并采用INT8混合、以及MLA与MOE分离量化策略,即MLA层选用W8A8-Static量化,MOE层选用W8A8-Dynamic量化,效果最佳。
3、准集调整
通过更新业务校准集进行Label-Free量化,并优化量化参数。
量化后带来的收益
模型压缩2倍:DeepSeek-V3/R1模型参数量为671B,通过INT8可节省2倍的内存开销,降低部署成本。
吞吐性能提升10%以上:权重INT8量化之后,一方面可以降低访存开销,另一方面通过INT8矩阵乘可以提升运算效率。
精度丢失<1%:通过混合量化、异常值抑制等算法策略,保证推理精度。
下一步规划
量化算法持续升级,新增规划W4A8/W4A4量化算法,同时针对FA3量化、通信量化等方向不断创新,进一步降低大EP推理的权重、KV Cache访存开销与通信开销。
昇腾将持续深耕于量化技术,为开发者提供更易用、更全面的量化工具。
「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。
