亲身体验高通Cloud AI 100 Ultra:开发者游乐场介绍
发表于 2024-11-11 11:18:00

目前可以免费提供:高通Cloud AI 100 Ultra开发者游乐场为开发人员提供了一种通过人工智能模型进行实验并探索算力卡性能的直接方式。通过手动访问包括Llama 3.1-8B、Llama 3.1-70B和SDXL Turbo在内的各种API,开发人员可以体验高通Cloud AI 100 Ultra的强大功能。

什么是高通Cloud AI 100 Ultra

高通Cloud AI 100 Ultra专为生成式人工智能和大语言模型设计,性价比高,是大规模人工智能推理部署的理想选择。其规格确保高通Cloud AI 100 Ultra能够在单卡上运行要求苛刻的模型(例如LLaMA 3.1 70B)并支持多种精度格式——FP16和MxFP6(MX格式)。

高通Cloud AI 100 Ultra专为高吞吐量AI推理而设计,对于希望优化部署的AI开发人员具有一些独特的优势。

为什么高通Cloud AI 100 Ultra是生成式人工智能推理的绝佳选择?

下文中说明了所具有的某些最大优点:

1. 无功耗的高吞吐量推理

高通Cloud AI 100 Ultra可提供870 TOPS的性能,使其可以高效地完成各项推理任务。高通Cloud AI 100 Ultra旨在加速生成式人工智能、计算机视觉和自然语言处理(NLP)等应用程序,从而能够实现高速推理,同时最大限度地降低功耗。该卡提供了有效处理大规模工作负载所需要的吞吐量。

2. 效能:150TDP下的性能

在150瓦TDP下,高通Cloud AI 100 Ultra与诸多数据中心加速器相比,可以实现更低的功耗占用。因此,您可以在不超过功率和冷却限制的情况下,最大限度地提高单个机架内的推理能力。它同样也是边缘部署的理想选择,其中功率限制是一个关键考虑因素。

3. 适用于大模型的内存容量

该卡带有128GB的LPDDR4x内存和57MB的片上SRAM。这是一个巨大的卡上内存,搭配548 GB/s的带宽,您可以轻松处理较大的模型和数据集。由于具有更高的内存容量,可确保您在推理期间能够提高批处理的规模,从而增加实际部署的总吞吐量。如果您正在运行需要大量内存的模型,例如视频分析或大语言模型,则该卡可以为你提供高效运行所需要的余量。

4. 对开发人员友好的软件堆栈

高通Cloud AI 100 Ultra由高通Cloud AI软件堆栈提供支持,可以吸收来自各种主流人工智能框架(例如:TensorFlow、PyTorch和ONNX)的模型。该堆栈的核心是AI 100运行时,可以最大化硬件性能,同时确保与各种人工智能模型的兼容性。该运行时可以与ONNX运行时、vLLM和Triton推理服务无缝搭配。

对于使用transformer模型的开发人员,高通科技公司提供了Efficient Transformers库,可在GitHub上获得。该Efficient Transformers库旨在确保开发人员能够轻松地将预训练模型从Hugging Face(HF)移植到经过优化、可在高通Cloud AI 100加速器上高效运行的推理就绪格式中,其中包括为大语言模型(LLM)重新实现的各个模块,经过微调后可以在高通科技公司的硬件上实现高性能推理。库允许模型直接从原有的预训练状态转换为经过优化的部署就绪形式。

除了模型优化之外,软件堆栈还提供了一套开发人员工具,例如分析器、调试器和仿真环境等,以简化开发和测试工作。该堆栈还与多种操作系统兼容,包括Red Hat、Ubuntu和CentOS,可以确保将其轻松地集成到各种数据中心环境中。

高通Cloud AI堆栈图

推理服务建立在底层强大的Cloud AI堆栈之上,并为聊天客户端、检索增强生成、嵌入向量和图像生成提供易于使用的、与OpenAI接口兼容的API。它对用户隐藏了所有大语言模型的服务复杂性,并提供了从开发到部署的快速开发体验。启动与大语言模型的对话可以用几行代码完成,如下面的代码片段所示。

from imagine import ChatMessage, ImagineClient
client = ImagineClient(api_key="my-api_key")
chat_response = client.chat(
    messages=[ChatMessage(role="user", content="What is the best Spanish cheese?")],
    model="Llama-3.1-8B",
)
print(chat_response.first_content)

5. 特别适合于云及边缘设置

高通Cloud AI 100 Ultra并不仅仅局限于数据中心;它所具有的能效比和紧凑外形使其成为边缘部署的绝佳选择。凭借第4代PCIe、16通道、全高度和3/4长度的设计,Cloud AI 100 Ultra可以被集成到各种不同的环境中——无论是在云中扩展还是优化现场边缘处理。

6. 更多推理、更低成本

在云中部署人工智能的成本正在快速提升,而高通Cloud AI 100 Ultra可以为人工智能推理提供经济实惠的解决方案,而这正得益于其能效比。通过最大限度地实现每瓦特功率的推理,高通Cloud AI 100 Ultra有助于降低运行成本,确保开发人员能够在不超出预算限制的情况下扩展其模型。如果您是依赖云资源运行模型的开发人员,该卡可以帮助您在没有耗尽资源的情况下进行扩展。

高通Cloud AI 100 Ultra目前可在Cirrascale、TensorOpera和Core42全球数据中心的云上使用。

探索高通Cloud AI 100开发者游乐场

准备好探索高通Cloud AI 100 Ultra的各项功能了吗?通过本公司的免费开发者游乐场,试用由高通Cloud AI 100 Ultra提供支持的Llama-3.1-8B/70B以及SDXL Turbo API,来亲身体验它如何优化您的人工智能部署。

目前可通过以下链接进入游乐场:Cloud AI Developer Playground | powered by Qualcomm Cloud AI 100 Ultra

加入本公司的开发人员Discord,与其他开发人员保持联系,以获得最新消息和及时的技术支持。

在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通公司或其子公司(以下简称为“高通公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通公司或任何其他方的赞同或表述。本网站同样可以提供非高通公司网站和资源的链接或参考。高通公司对于可能通过本网站引用、访问、或链接的任何非高通公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。

高通品牌产品均为高通科技公司和/或其子公司的产品。

关于作者Parmeet Kohli

帕尔米特·科利

产品经理,员工

阅读更多

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】