面向大型语言模型的低功耗加速–高通云人工智能软件开发工具包-CSDN.NET

CSDN首页> 业界

订阅业界RSS

面向大型语言模型的低功耗加速–高通云人工智能软件开发工具包

发表于 2023-11-10 18:18:56

2023年11月1日星期三上午04:05时 | 发布人：莫里斯·诺韦洛

骁龙及高通品牌产品均属于高通公司和/或其子公司产品。

是否想要在没有超出功率预算（或者冷却预算）的前提下实现大型语言模型（LLM）推理工作负载的加速？

与CPU和GPU相比，高通云 AI 100在边缘云上实施人工智能推理的速度更快，效率更高。此外，还可以允许您将敏感数据保留在本地来控制数据。为了充分利用高性能、低功耗和隐私保护等方面的优势，我们推出了高通云人工智能软件开发工具包。这种软硬件组合设计可加速完成各项人工智能任务，包括代码转换、转录、问答和语言翻译等自然语言用例的大型语言模型推理。

大型语言模型（LLMs）的应用范围突然扩大，从驱动聊天机器人到编写应用程序代码等。许多公司和其工程设计团队都在争先恐后地以可盈利和可持续的方式部署大型语言模型，同时要避免对数据中心和边缘设备的资源造成负担。高通云AI 100的硬件与软件结合代表了我们在深度学习加速技术上十多年的研发成果，且具有低功耗特性。

本篇博文说明了开发人员如何在其自有的应用程序中利用高通云人工智能100系统和全新高通云人工智能软件开发工具包，特别是在利用大型语言模型进行的自然语言处理（NLP）中。

硬件：高通云AI 100系统

如下文所示，高通云AI 100硬件采用了适用于服务器的低占位PCIe形态因子。

各种插卡在惠普和联想等平台合作伙伴的商用服务器中运行，未来将支持更多的服务器。

高通云AI 100具有高性能和低功耗的特点。PCIe卡分为标准和专业两种型号。

功率（热设计功率）：75瓦
机器学习能力，INT8：最高可达每秒400万亿次运算（TOPS）
机器学习能力，FP16：最高可达每秒200万亿次浮点运算（TFLOPS）
片上SRAM：最高可达144MB
卡上DDR：16或32 GB LPR4 x速率为137 GB/s

硬件设计用于将人工智能处理和分析应用于实时或离线多媒体流。

高通云人工智能可以提供两个软件开发工具包：即应用程序和平台。如将其一起使用，可以使您能够在高通云AI 100硬件上编译、优化并运行来自ONNX、PyTorch、TensorFlow、Caffe和Caffe2等框架的模型。下图展示了您将遵循的高级工作流程：

框架与型号

PyTorch 谷歌张量流图 Caffe Caffe2 开放神经网络交换

运行时间开放神经网络交换

运行时间

编译推理

云人工智能应用程序软件开发工具包云人工智能平台软件开发工具包

模型装载器高通图形应用程序接口云人工智能推理运行时间库

（开放神经网络交换或框架）

型号配置器二值图像

云人工智能编译器库内核驱动程序

云人工智能模拟器云人工智能后端（社区企业操作系统、乌班图、红帽企业版Linux等）

云人工智能100 云人工智能固件

1. 从您使用常见机器学习框架创建的训练有素的神经网络中导出一个便于推理的网络。

2. 通过模型加载器直接或通过如ONNX Runtime等运行时间接地将这个便于推理的网络加载到应用程序SDK中。然后编译该网络。

3. 编译器生成网络的二进制镜像。

4. 在高通云AI 100硬件上，使用平台SDK中的runtime library来执行网络二进制文件。

我们推出了高通云人工智能100软件堆栈，其中包含可用于创建、优化和部署各种机器学习推理应用程序的工具：

	AIC编译器	AIC编译器并行编译器支持开放神经网络交换、PyTorch、TensorFlow和Caffe模型。多核及多设备调度器。可通过用户确定的自定义操作进行扩展
AIC运行时间驱动程序 Linux运行程序支持固件下载，并行网络执行，用户超载（时间共享），设备分区，Docker与Kubernetes等等。	用户空间驱动程序
	内核驱动程序（乌班图、社区企业操作系统、红帽企业版Linux、适合用作服务设备）	开放神经网络交换，PyTorch，TensorFlow，Caffe
	超级监督者（可选项：基于内核的虚拟机，HperV）	AIC固件强大的固件解决方案，支持安全布尔、子系统复位，电源管理，块多路转换通道，优化神经网络交换支持（DPS）
	AIC固件

有大量关于软件开发工具包和工具的文件。请查看高通云人工智能100有关概述。

为您的大型语言模型加速

在遵循工作流程并使用上述开发人员工具的前提下，您可以在高通云人工智能100上运行现有的大型语言模型。

有关大型语言模型的典型用例包括：

代码转换，大大加快了应用程序开发和网站建设
有关零售商在线购物的客户服务和聊天机器人
文件总结和类似copilot的用法，可用于总结会议或电子邮件情况
语言翻译，提高跨地域市场的业务准入

高通云人工智能100支持数十种自然语言处理模型，例如GPT2及其变体，以及来自变换器的双向编码器表示（BERT）及其变体。如果您想启用自有的某一种模型并尝试对其进行优化，您可以在本公司的云人工智能社交编程及代码托管网站上查找到方法。

除了自然语言处理外，高通云人工智能100还支持从计算机视觉（图像分类、目标检测、语义分割、姿态估计、人脸检测）到自动驾驶等各个领域的模型。看看高通云人工智能100是否可以为您创建的模型提供神经网络支持。

后续步骤

将高通云人工智能100硬件和高通云人工智能软件开发工具包结合在一起，您可以满足数据中心日益增长的推理需求。其中包含了高通在低功耗、规模、工艺节点领导和信号处理专业知识等方面的背景。而且，软件开发工具包为您提供了一个通用、灵活的工具链，具有针对各种模型和各类应用程序接口的优化库，特别是针对大型语言模型高达1750亿个参数的推理工作负荷。

接下来，我们会利用高通云人工智能不断进行改进。我们会继续致力于通过提供更多的低延迟和低能耗推理来实现大型语言模型（LLMs）的更好性能。此外，请密切关注有关将高通云人工智能作为云实例访问的公告。

接下来，您应当访问本公司的高通云人工智能门户网站，以了解更多关于高通为人工智能和大型语言模型加速的方法，并评估与您的组织机构的契合度。请注册访问软件开发工具包。了解如何在边缘云上更快、更有效地运行推理。

骁龙与高通品牌产品均属于高通公司和/或其子公司产品。