Ollama利用开源模型在骁龙X系列设备上简化了推理
发表于 2024-10-30 16:34:06

Ollama是一种对在各种硬件平台上运行的开源大语言模型进行简化的工具,目前支持了骁龙X系列设备。

Ollama因可以快速入门大语言模型而闻名。开发人员可以深入研究并使用Ollama.com上的任何模型进行人工智能推理。只需要一行代码,开发人员就可以通过调用一个API,从而让其应用程序从专有模型切换到开源模型,包括以下各项:

  • Meta公司的Llama 3.2
  • 谷歌公司的Gemma 2
  • 微软公司的Phi 3.5
  • 阿里巴巴公司的Qwen 2.5
  • IBM公司的Granite Code
  • Mistral
  • Snowflake公司的Arctic Embed

该工具同样可以运行由Ollama和人工智能社区的其他供应商所提供的各种定制模型。考虑到全球范围内开源模型的多样性,在骁龙X系列设备上使用Ollama的开发人员目前在大语言模型和硬件平台的选择上均具有很大的优势。

跟上硬件和人工智能发展的步伐

随着搭载骁龙®计算平台的设备安装基数不断增长,各种规模的软件制造商均发现全新的市场机遇。

对于Ollama而言,支持骁龙X系列意味着首先要在骁龙架构上启用有关Windows的引擎。

因此,开发人员可以在搭载骁龙X系列处理器的微软Copilot+个人电脑等设备上运行Ollama。从通过ollama.com/download安装开始,该引擎可以在由骁龙驱动的设备上运行推理——尤其是骁龙X Elite设备。

开发人员选择Ollama是因为该平台能够支持开源大语言模型,并能够在本地运行。开发人员想要的不是在专有云模型(例如OpenAI提供的GPT-4以及Anthropic提供的Claude)上构建其应用程序,而是多样化、控制、限制以及其他一些商业优势,比如:

  • 低延迟——在本地运行大语言模型意味着不需要通过网络发送流量。如果时间对于模型的输入或输出至关重要,这一点尤其有价值。
  • 隐私性——无论应用程序的任务是编写食谱还是解释医疗数据,用户都希望将具有隐私性的个人身份信息(PII)保存在本地。

笔记本电脑间、从笔记本电脑到云的可移植性

可移植性是Ollama的标志。无论硬件品牌或CPU架构如何,开发人员都可以轻松地从一种设备切换到另一种设备,并拥有相同的Ollama用户体验。目前,骁龙设备上的Windows操作系统同样适用。

例如,已经习惯了微软Visual Studio coding extensions的开发人员可以使用Ollama来选择自己想要的模型,比如代码补全。一个典型的例子是续创公司:作为一家初创公司,该公司构建开源工具,以帮助对Visual Studio coding进行代码补全。

正如Ollama联合创始人迈克尔·蒋所说:“通过骁龙X Elite计算平台所实现的性能成就,我们很高兴确保开发人员和最终用户能够更容易地使用各种人工智能模型。开发人员可以使用Ollama平台上的所有模型,同时可以选择将自定义模型导入运行骁龙X Elite平台的笔记本电脑或计算设备。只需要一行代码,开发人员就可以从付费使用ChatGPT和Claude等外部服务切换到使用开源模型,以此运行自己的应用程序。此外,当开发人员准备将服务部署到选定的云提供商或云服务器时,可以享受到相同的开发人员体验。”

多模态支持和未来路线图

Ollama支持函数调用,可确保基于大语言模型的各种应用程序均能够为模型获取信息,或者通过API调用与各种外部工具进行交互。例如,大语言模型不太适合应答需要数学运算的场景,但是,通过Ollama对于函数调用的支持,开发人员可以告诉大语言模型拿起计算器并输入数值,然后得到结果。或者在天气应用程序中,如果大语言模型无法掌握当前的天气情况,Ollama就可以通过API获取最新的天气信息,并将其返回给应用程序。

大语言模型正在为Ollama支持多模态模型铺平道路。通过多模态模型,人工智能可以超越分析文本,对视频、图像、语音甚至传感器数据进行分析,从而对更多种类的输入提供更准确的应答。其用例包括光学字符识别(OCR),以及为视力受损的用户总结图片内容。类似Moondream这样的计算机视觉开源模型已经在Llama中获得支持,并且Ollama正在与Meta公司合作,以便在骁龙设备上启用Llama 3.2中的视觉模型。

.

Ollama目前正在运行Llama 3.2 1B(10亿个参数)和3B(30亿个参数)模型,而在骁龙峰会上展示的Llama 32 11B(110亿个参数)则提供了概念验证。

最后,Ollama能够在骁龙X系列设备的CPU上运行。通过与高通科技公司和微软公司进行的合作,Ollama计划确保DirectML能够将推理任务卸载到高通Adreno™ GPU和高通Hexagon™ NPU上。

轮到你了

开发人员可以立即开始使用任何Ollama模型。

1. 从 Download Ollama on macOS下载并安装Ollama。

2. 找到所需要的模型,并在模型页面的顶部复制运行命令(例如:Ollama run mistral)。

3. 打开终端窗口并执行该命令。

所有的Ollama模型目前都在搭载骁龙X系列的设备上运行。准备好迎接性能提升吧,尤其是在搭载骁龙X系列的设备上。

想听到更多的更新内容吗?加入志同道合的开发人员社区,在高通开发人员Discord上建立联系,获得支持并交流想法。

在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通公司或其子公司(以下简称为“高通公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通公司或任何其他方的赞同或表述。本网站同样可以提供非高通公司网站和资源的链接或参考。高通公司对于可能通过本网站引用、访问、或链接的任何非高通公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。

骁龙与高通品牌产品均为高通科技公司和/或其子公司的产品。

关于作者

德望·阿加沃尔

高级产品经理

阅读更多

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】