近日,DeepSeek全系列模型在腾讯云TI平台上第一时间上架,并在业内率先实现企业级精调与推理全链路功能。此次支持精调的模型涵盖了满血版DeepSeek V3、R1以及六款蒸馏版模型,为金融、医疗、制造、零售等多个行业提供了更高效、便捷的AI模型构建及应用方案,进一步降低企业在大模型应用中的技术门槛和研发成本。
随着DeepSeek引发行业广泛关注,企业客户在模型精调与部署过程中可能面临数据预处理难、模型训练门槛高、在线部署及运维复杂等多重挑战。腾讯云TI平台凭借全流程AI开发工具,实现了从数据准备到模型部署上线的一站式解决方案。
平台内置的数据构建模块不仅支持快速清洗、去重与格式转换,还能根据具体任务进行Prompt优化。同时,通过灵活的训练调度策略和自研的大模型计算与并行优化技术,有效加速训练与推理过程,大幅提升资源利用率。
据悉,TI平台同时支持公有云、私有化版本。其中,公有云版本在腾讯云上开箱即用,按需订阅;私有化版本可部署在客户本地机房、专属云服务器等自有算力上,更适合金融等更高数据安全要求的场景,从而灵活满足政府和企业的多样化需求。
支持DeepSeek的两种精调方式,满足多样化需求
为适应不同行业的个性化模型构建需求,腾讯云TI平台面向DeepSeek提供了两种精调模式。
一、直接精调满血版DeepSeek。针对希望直接对原始DeepSeek模型进行微调的用户,平台内置DeepSeek满血版等全系模型,并预置训练镜像和训练代码,用户只需按平台规范准备好训练数据,并设置学习率、迭代步数等参数,即可一键启动精调任务。
在训练阶段,平台支持全参和LoRA两种精调方式,为用户提供兼顾训练成本和模型效果的灵活选择,确保模型在金融、医疗等垂直领域满足业务要求。在数据准备阶段,平台内置了可高度自定义的数据标注和构建工具,显著提升数据质量,并有效降低数据处理成本。
二、基于DeepSeek R1蒸馏其他较小尺寸模型。DeepSeek R1虽具备卓越的长思维链(Long CoT)能力,但模型尺寸大(参数量671B),实际推理成本较高。针对希望以更低成本、更高响应速度应用R1的用户,TI平台也支持基于R1蒸馏其他较小尺寸模型,可将R1的能力迁移至较小尺寸的“学生”模型中。
用户首先在TI平台部署DeepSeek R1推理服务,然后调用R1生成包含长思维链的高质量蒸馏数据,紧接着进行数据清洗,最后利用这些数据对较小尺寸的“学生模型”(如Llama 3.2-3B)进行精调,从而实现知识迁移。在保留优秀推理性能的同时,大幅降低推理成本或提升模型推理速度,有效满足高推理性能或成本敏感的场景。
提供模型评测及部署完整工具链,助推行业智能转型
腾讯云TI平台还提供了全面的模型评测与部署功能。模型评测包括轻量体验、客观评测和主观评测三阶段能力,帮助企业多维度验证模型性能。模型部署支持多种模型框架和格式,支持异构算力和资源弹性伸缩,可将模型快速发布为生产级API接口,接入企业应用。
自 DeepSeek 模型发布以来,TI 平台已成功助力多个行业客户部署专属 DeepSeek 服务并开展验证工作,部分已接入企业应用。未来,腾讯云将持续优化TI平台功能,依托领先的大模型训练推理技术,为客户提供更安全、稳定、高效的AI解决方案,助推各行业加速数字化转型。
「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。
