SCNet「AI跃升季」·谁是下一个“AI”跃人?项目体验
发表于 2024-11-06 11:40:37

第一部分:AI算力性能反馈
运行的商品名称
分别尝试运行过stable-diffusion-2-base、Llama-2-7b-chat-hf。

运行的过程记录

  • 选择合适的计算资源,创建出容器实例

  • 选择想要体验的模型服务,将模型服务部署到容器实例中,等待片刻,便可以进入到容器 Notebook

  • 进入Notebook后,首先检查是否预置有推理脚本,在我体验的Llama2-7b-chat-hf 中没有找到预置推理脚本,所以我自己写了个,几行代码,比较简单。在运行推理时,第一次遇到了环境依赖问题。然后到Notebook终端用 pip install accelerate 命令手动安装了包,不熟悉Notebook的需要记得要重载内核,否则新安装的依赖可能不会生效!

  • 在安装依赖包时,有可能会遇到依赖包的冲突,造成这个问题主要原因有两个,一是AI的资源包本身就繁多而且版本依赖复杂,二是在异构加速卡上,有一些包由于CUDA架构的原因,需要进行手工移植,那么在手工移植的过程中也会产生依赖的冲突、版本跟进不及时等问题。其实像类似问题,当有冲突时可以先试着继续执行,不一定会影响执行,等到绕不过去再去解决更好。

  • 这里是我为微调准备的一些依赖,安装起来还算轻松,没有太多冲突,除了那个 b&b,这个稍后着重说。

  • 这里再补充一个遇到的依赖包缺失问题

运行的结果反馈

  • 推理结果如下

  • 优化后的推理结果,加入了耗时计算

  • 再一次优化,加入token长度计算,直观观察卡的性能

  • 微调代码片段如下

  • 微调结果如下,选择了在线西语语料,因为llama2为英文训练,西语较弱,所以用西语尝试微调。

  • 执行西语任务!

运行体验与建议
1、我使用的是异构加速卡AI环境,首先我觉得在异构加速卡上,基础镜像环境还是比较全的,主流的AI机器学习框架像 Pytorch,Tensorflow等等都有,而且版本跟进还可以,可能慢最新的一到两个小版本,所以基本能满足使用需求基础环境的适配我觉得已经完整了。从平台功能上说,开发镜像不止支持选择基础镜像,还支持模型镜像和自定义镜像的类型,这给了很高的自由度和方便,这块用起来很顺手

2、关于其他平台功能的体验。容器资源的创建和登录很丝滑,基本可以和一些知名云服务媲美,页面菜单上可能小功能较多,所以有时会一时找不到在哪里,但多用用就会熟悉,这是必要的使用成本。另外我觉得ssh的登录体验不错,两次复制就可以登录,而且界面挺简洁友好的,是设计过的。

3、平台功能还有一点值得一提,就是可以将自己购买的资源,不论是模型服务还是数据集、源码等,除了可以下载到本地,还可以一键部署到自己在平台上其他区域的资源,这样“一键”功能带来很多方便。

4、下面聊AI计算方面的性能,在我上面的运行截图可以看到模型在推理时的表现:
a) 推理性能:大概200左右的token,用时5s左右

b) 模型加载:7b规模的模型,加载大概在30s到1min之间,速度在我的体验中也是可以接受的,甚至不输 L20、L40的性能,大于 A6000等型号。

c) 模型微调:微调时加载的是非量化版本,速度也比较快,基本没有感觉到等待的痛苦,并且在我所选参数组的情况下,微调的速度有点让我惊喜,比我之前在 L40上微调的速度要快一些,虽然没有严格测试,只是从感官上讲。

5、用 rocm-smi、hy-smi、rocminfo 命令仔细检查了下,所使用的加速卡的型号。观察到,在微调时,加载 7b 模型用到了加速卡 20% 的 VRAM。

使用的卡型是异构加速卡AI,由于我手头暂时没有N卡可以测试用,没办法用实际训练表现数据做直观对比,只能从静态数据上观察一下。

这款 异构加速卡 在 FP32/TF32 精度下分别有 49/98 T的算力,FP16/BF16 精度下都有 196TFLOPS 算力,INT8是392T,其实光看这几个数值上的表现,基本上达到了 Nvidia A100 的 50% 到 60% 左右,虽然距离 H100 还有差距,但是在国产工艺下,还支持双精度运算,并且在真实使用体感上已经还可以了。但我觉得,N卡对比国产算力卡,优势不止在于技术工艺上,还在生态、高速计算网络、持续迭代、多卡互联等这些能力上,所以希望国产卡在这些方面也能全面发展。
接下来反馈一些使用中的问题:一是国产异构卡上常见的依赖包的移植和兼容,这也是最常见的问题。我也碰到了,而最让我头疼的就是bitsandbytes这个包。B&b这个包本身在cuda架构下,他的依赖就非常苛刻,相关的transformers,accelerate等包的版本不对,或者cuda的版本不对,都会导致这个包无法正常使用。

后续经过请教客服老师,得到了移植版的安装包。
还有其他一些包比如tensorboard等,上面使用过程也有记录一些

上面也隐含了另一个问题就是TK对于不熟悉的人来说,是个黑盒,碰到底层问题,很少有资料能支持自己解决问题,但这可能是所有国产异构卡都面临的问题,就需要联系客服协助解决了

总结
算力为重要资源的时代已经来了,看得出国家超算互联网尽最大的力,想将国产算力和AI推广到更远的地方。对AI这一波感兴趣的朋友们抓紧时间上车吧,算力不够用也不怕,SCNET 上有很多活动可以白得算力(听说群里天天还有算力券的抽奖,积少成多,算力根本不用愁!)也可以看看这个AI体验的活动【谁是下一个“AI”跃人 -AI体验推介活动,赢取千元算力券!】(https://www.scnet.cn/home/subject/modular/index270.html)整个活动下来真的可以系统的学习和使用到真实算力和国产算力。

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】