通过我们的突破性研究和优化,可以利用3D高斯点绘技术在手机和XR设备上以60帧/秒的速度实现逼真的3D虚拟形象建模沉浸式体验。
工程界认为,在可预见的未来,在电池驱动设备上利用3D高斯点绘技术渲染逼真的3D数字人在计算上过于昂贵。在NeurIPS 2024上,我们已证明了这种看法并不正确,3D高斯点绘技术可以在边缘设备上实时运行。
3D高斯点绘技术使现实的数字双胞胎成为可能
高斯点绘是一种新兴的三维演示技术,因为它增加了真实感。原始的三维高斯点绘(3DGS)捕获一些图像,使用COLMAP将其对齐,并利用优化器进行泼溅参数估算[1]。
最近,许多论文[2,3]发布了他们在高斯点绘数字人建模方面进行的工作,将这种演示方法提升到了一个新的水平。其中一个重要方面是训练一个3DGS神经网络,根据作为解码器条件的表情向量和数字人ID来估算数字人的高斯点绘参数。这个想法[4]被扩展到了能够从普通移动设备中录入虚拟形象,而这是一条非常令人信服的路径。
为了演示数字人,我们假设存在一个用于蒙面和追踪的重拓扑网格,该网格也假定与UV贴图对齐。从某种意义上说,UV贴图的每个texel都是一个容器,存储了所有的点云参数,如下所示。
附图1:数字人UV贴图与相应网格
在这一理念下,点云的数量对应于UV贴图的大小。例如,512×512的UV贴图将有262,144个点云。这种带有大量点云的表示方法可以实现很好的质量,但对于边缘设备来说则存在问题,因为它还需要高计算能力和数据带宽。我们如何有效地实现这个概念,以便在边缘设备上运行高斯点绘技术?
我们对三维高斯点绘技术的优化
为了在设备上驱动带有面部表情的数字人,我们开发了以下流程。我们需要一个高保真的表情编码器将图像映射到一个表情向量,如混合形状和视线向量。我们之所以选择这类表情向量,是因为它可以很容易地与OpenXR等标准兼容[6]。解码器将采用表情向量以及数字人资源来生成点云。
为了利用整个骁龙平台进行处理,我们将计算细分为不同的区间。我们在由骁龙驱动的神经处理单元(NPU)上运行表情编码器和数字人解码器,3D高斯点绘渲染在图形处理单元(GPU)上运行。通过这种方式,我们可以通过同时运行在不同处理器中获益。NPU和GPU之间的数据流可以通过共享内存的概念进行管理,为了减少NPU和GPU之间的数据带宽,可以轻松采用现有的概念[7-9]。
附图2:骁龙平台处理比较图
此外,为了确保编码器和解码器能够在NPU上运行,我们还需要使人工智能模型与高通AI Engine direct SDK(例如:量化)兼容[10]。为了在保持模型精度的同时进行量化,我们使用了AI Model Efficiency Toolkit(AIMET)[11]。如下图所示,可以首先使用任何机器学习库来训练3D高斯点绘解码器。如果模型质量符合要求,则使用AIMET[11]进行量化感知训练(QAT),以生成量化模型,该量化模型可以在由骁龙[10]驱动的边缘设备的NPU上有效运行。
附图3:利用任何机器学习库训练3D高斯点绘解码器
世界首个实时3D高斯点绘数字人在设备上运行的演示
通过刚刚分享的概念和优化,我们在下图和性能分析表中展示了整个系统如何在由骁龙XR2 Gen 2和骁龙8 Elite驱动的边缘设备上以60帧/秒的速度实时运行。这些数据对应于512×512UV贴图。
平台 | 骁龙XR2 Gen 2 | 骁龙8 Elite |
编码器延迟(毫秒) | 3.905 | 1.196 |
解码器延迟(毫秒) | 13.534 | 7.58 |
3DGS渲染延迟(毫秒) | 8.85 | 7.04 |
附图4:世界首个实时3D高斯点绘数字人在设备上运行的演示
我们还展示了整个系统在配备骁龙8 Elite平台的手机上运行的实时视频演示,用户可以在该平台驱动各种虚拟形象。在此演示中使用的模型已授权高通技术公司使用他们的图像和相应的网格,以用于3D数字人的演示。
设备端3D高斯点绘演示
后续步骤?
我们的目的是要将此项研究成为商业现实。我们设想人们在XR设备上进行真正身临其境的对话,逼真的面部虚拟形象让你感觉每个人都在同一个房间里,即使你们身处不同的国家。
让我们了解你的想法!加入本公司有关开发人员Discord的开发人员社区,并注册本公司的人工智能通讯:人工智能和计算的下一步是什么
在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通公司或其子公司(以下简称为“高通公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通公司或任何其他方的赞同或表述。本网站同样可以提供非高通公司网站和资源的链接或参考。高通公司对于可能通过本网站引用、访问、或链接的任何非高通公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。
高通与骁龙品牌产品均为高通科技公司和/或其子公司的产品。人工智能模型效率工具包为高通创新中心股份公司的产品。
关于作者
迈克尔·萨尔基斯
主任工程师/经理
-------------------------------------------------------------------------
[1] B. Kerbl, G. Kopanas, T. Leimkühler, G. Drettakis ,“3D高斯点绘技术在光场渲染中的应用”,世界图形图像学术大会,2023年7月
[2] S. Saito, G. Schwartz, T. Simon, J. Li, G. Nam,“可重光照高斯编码虚拟形象”,CVPR,2016年6月
[3] S. Giebenhain, T. Kirschstein, M. Rünz, L. Agapito, M. Nießner,“NPGA:神经参数化高斯虚拟形象”,SIGGRAPH Asia,2024年12月
[4] J. Li, C. Cao, G. Schwartz, R. Khirodkar, C. Richardt, T Simon, Y. Sheikh, SA. Saito,“URAvatar:通用可重光照高斯编码虚拟形象”,SIGGRAPH Asia,2024年12月
[5] B. Egger, W. Smith, A. Tewari, S. Wuhrer, M. Zollhoeffer, T. Beeler, F. Bernard, T. Bolkart, A. Kortylewski, S. Romdhani, C. Theobalt, V. Blanz, T. Vetter,“三维可变形面部模型——过去,现在和未来”,美国计算机学会图形学汇刊,第39卷,第5号,2020年6月
[6] The OpenXR 1.1.42 规范, https://registry.khronos.org/ OpenXR/specs/1.1/html/xrspec.html#XR_FB_face_tracking, 最后访问,2024年11月
[7] M. Sarkis, W. Zia, K. Diepold,“基于压缩三叉树的深度图快速压缩和网格划分”,ACCV,2009年11月
[8] M. G. Kim, S. Jeong, S. Park, J. Han,“超像素引导的3D高斯点绘采样”,中国计算机学会虚拟现实软件与技术研讨会,2024年10月
[9] J. C. Lee, D. Rho, X. Sun, J. H. Ko, E. Park,“辐射场的紧凑型3D高斯表示”,国际计算机视觉与模式识别会议,2016年6月
[10] Qualcomm® AI Engine Direct SDK , https://www.qualcomm.com/ developer/software/qualcomm-ai-engine-direct-sdk, 最后访问,2024年11月
[11] Qualcomm® AI Model Efficiency Toolkit(AIMET),AI Model Efficiency Toolkit,最后访问,2024年11月