最近,通过高通人工智能研究 将代码 用于该公司的多篇高水平研究论文。该项工作涵盖了各种各样的主题,包括模型量化、视频理解、因果关系、关键词识别等等。通过共享其代码,高通人工智能研究对机器学习社区起到了积极作用,并进一步促进该类关键领域的进一步发展。在本篇博文中,我们将对其中一些论文进行总结,并强调其重要意义。
本文介绍了一种有关高效关键词检索的广播残差学习方法,而关键词检索在设备唤醒和智能设备用户体验方面起着至关重要的作用。该方法利用广播残差连接将时间输出扩展到频率-时间维度,从而通过减少计算量有效地表现音频特征。利用所提出的网络架构(名为:BC-ResNet),开发人员和研究人员能够以较小的模型尺寸和计算负荷实现高精度。
针对图像中均匀背景区域与密集杂乱区域处理方面的难题,本文提出了一种针对视觉转换器的动态混合标记化方案。该方法使用条件门控机制为每个图像区域选择最佳的标记尺度,动态确定每个输入的标记数量。通过此项工作,可以确保开发人员实现更高的计算效率,同时对图像分类和语义分割任务的执行造成最低限度的影响。
本文介绍了几何代数转换器(GATr),这是一种数据高效的架构模型,可以确保研究人员和开发人员增强机器人对于其所处环境的感知。几何代数转换器利用几何代数的表征形式和同变性来审核物理环境的几何结构。该模型将转换器的可扩展性和表达性与处理不同类型几何数据的能力相结合,使其适合于各种应用程序,并且无需修改网络架构。
本文可以帮助研究人员和开发人员提高机器人对因果关系的理解。为了探讨嵌入式人工智能中高水平表征的学习方式,本文研究了对数据生成过程相关“正确”表征进行学习的条件。本文作者提供了一项概念验证性示例;在该示例中,为了摆脱视觉输入方面所使用的各种按钮和显示灯,并确定哪些按钮会导致打开不同的显示灯,进行了一项表征学习。本文还介绍了CausalCircuit数据集,以确保可以研究在因果设置中进行因果表征学习的方式。
本文深入探讨了FP8浮点格式对于神经网络推理的益处。通过对准确但计算代价昂贵的模型结果所进行的逼近,FP8格式显着提高了训练深度学习网络的效率。本文作者分析了有关FP8格式的各种选择,包括尾数和指数的位数,并演示了在各种设置下所改进的性能。这种方式有助于研究人员在训练其神经网络时做出最有效的选择。
增量蒸馏是一种通过逼近结果来加快视频处理速度,同时降低计算成本的技术。如同往常一样,该方法在处理第一帧(关键帧)的同时,将连续帧表示为相对于关键帧的差异(增量)。由于视频序列中存在的时间冗余,增量传递的信息要比原始帧少,因此可以使用更小的模型进行处理。实验结果表明,增量蒸馏在视频分割和目标检测任务方面要胜过目前最先进的特征蒸馏。这样可以确保开发人员能够减少计算机视觉的计算成本,同时不会造成准确性的严重损失。
高通人工智能研究针对其在各种机器学习领域的高水平论文发布了代码,这是一种促进合作和推进人工智能技术开发的方式。该团队将在接下来的几个月里发布更多带有代码的论文。请关注GitHub账户、以及 高通创新中心和高通人工智能枢纽,以获取更多更新内容。
在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通公司或其子公司(以下简称为“高通公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通公司或任何其他方的赞同或表述。本网站同样可以提供非高通公司网站和资源的链接或参考。高通公司对于可能通过本网站引用、访问、或链接的任何非高通公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。
高通人工智能研究是高通科技公司的一项倡议。