高通人工智能研究院已经发布了用于研究的各种数据集。这些数据集可用于训练移动计算中各种最常见应用程序中的模型,包括:高级驾驶辅助系统(ADAS)、扩展现实(XR),虚拟现实(VR)和增强现实(AR)应用程序、智能手机、机器人、智能家居、安全、工业物联网、医疗保健和辅助技术、关键词识别和张量程序执行时间。
无论您的应用程序依赖于识别手势、语音还是图像,您都可以找到可用于机器学习和人工智能训练的数据集。浏览本公司已发布的数据集。
高通锻炼视频数据集(QEVD)探索了在现实世界中具有挑战性的锻炼指导领域内人类与人工智能的互动情况——此项任务本质上需要监控实时用户活动并提供及时反馈。我们的数据集包括了纠正性反馈,以处理用户的潜在错误,并引导其成功完成锻炼活动。
该数据集包含474+个小时的视频,其中包括以下内容:
- 带有1M+的问答标注的短视频片段(长度约5秒)。
- 带有650k+实时反馈(包括纠正性反馈)的短视频片段(长度约5秒)。
- 带有7.5k+实时反馈(包括纠正性反馈)的长视频片段(时长超过3分钟)。
ClevrSkills包含大约300,000条机器人场景/轨迹,包括视频(取自不同视角)、相应动作和其他标注(包括文本、边界框、摄像头角度等),这些均由ClevrSkills环境套件中的33个任务生成(可在此处获得)。
该数据集同样提供了一个精心设计的任务课程,可用于训练机器人模型执行各种任务,从简单的拾取和放置到更为复杂的操作(例如:分拣、堆叠等)。
AirLetters数据集是评估某一模型对各种关节运动分类能力的基准测试集。这是一个超过161,000个视频标签对的视频片段大型集合,显示了人类如何在空中写出字母和数字,并用于评估模型对关节运动进行正确分类的能力。
与现有的视频数据集不同,AirLetters的准确分类依赖于对运动模式的识别以及对视频随时间所呈现信息的整合(即:多帧视频)。
我们的研究表明,虽然对人类而言微不足道,但对于各种模型的端到端训练而言,复杂关节运动的准确表示仍然是一个开放性问题。
通过PlotTwist数据集,确保您能够利用视觉语言模型(VLM)进行视觉推理方面的研究,以回答有关数学图形方面的人类可读性问题。
您可以使用超过2,900对的高分辨率图像数据(基准数据)进行测试,其中每对数据均包含:
- 一张数学函数图形/曲线图。
- 数据,包括一个关于图像的问题以及正确答案(例如,“哪个子图具有最多数量的不连续函数?”)。
PlotTwist数据集还包括一个超过226,000对图像数据的训练集,可用于模型的重新训练和微调。
各项任务分为三个难度递增的等级:
- 单一函数
- 多函数
- 多曲线图(最具挑战性)
您的模型可以识别某些简单的单帧手势,比如竖起大拇指。但对于一个真正反应灵敏、准确的系统,您希望您的模型也能够识别复杂的手势,即使它们之间的差异很细微。这个人是在指着什么东西还是在摇食指?是用手在清洗显示器还是用两个手指在放大图像?如果有足够多的实例,您的模型可以理解其中的差别。
Jester手势识别数据集包括148,092个带标签的视频片段,涉及人类在笔记本电脑摄像头或网络摄像头前执行基本的预定义手势。该数据集为训练机器学习模型而设计的,以识别人类的各种手势,例如两个手指向下滑动、向左或向右滑动、敲击手指等。
这些视频片段涵盖了27种不同类别的人类手势,按8:1:1的比例进行划分,可用于训练、开发和测试。该数据集还包括两个“无手势”类别,以帮助模型区分特定的手势和未知的手部动作。
在移动计算时代,手势/动作识别及其在人机交互中的作用变得越来越重要。Jester视频数据集可训练强大的机器学习模型,以识别人类的手势。
Something-Something数据集(第2版)汇总了220,847个带标签的视频片段,涉及人类利用日常物品执行预定义基本动作。该数据集可以训练机器学习模型对于人类手势的详细理解,比如把某物放进某物中,把某物倒置过来,用某物盖住某物。
CausalCircuit是一个用于指导因果表征学习方面研究的数据集——识别图像中的高级因果变量及它们之间因果结构问题。
该数据集由机械臂与按钮和灯光交互情况的图像组成。在该系统中,有四个因果变量描述机器臂沿弧线的位置以及红光、绿光、蓝光的强度。使用MuJoCO(一种开源物理引擎)将数据渲染为512x512的图像。对于机械臂,我们使用了TriFinger平台模型,这是一种用于敏捷训练的开源机器人。
数据成对出现:在干预发生之前和之后。每个样本包含干预前后对应的成对数据。
无线室内模拟数据集包含大量通道,以便更好地理解传播环境(例如,材料,几何形状)和相应的通道效果(例如,延迟,接收功率)之间的相互作用。
数据集分为两部分:Wi3Rooms,使用PyLayers模拟器在10⨉5⨉3米的船体中,在各种随机配置的3房间室内布局中模拟各个通道的情况;WiIndoor,其中的10⨉10⨉3米室内配置均基于RPLAN数据集,通常包含4-8个房间。使用带有X3D射线追踪器的Wireless InSite进行模拟。
该数据集包含用户设备(UE)与其相应服务单元之间信道的频域信道矩阵样本,该样本使用TR 38.901中定义的3GPP空间信道模型合成,可以利用数据更好地理解标准密集城市布局中信道特征的统计分布情况。
如今,关键词识别(KWS)已被广泛应用于手机、家电等个人设备的具体关键词语检测。一个关键词可能由多个单字组成,其中“Hey Siri”、“Ok Google”和“Hi Bixby”就是众所周知的实例。
同这些实例一样,许多关键词都被特定的公司打上了品牌名称,这些公司对自己产品的关键词识别任务表现出了极大的兴趣。虽然这些公司提出了各种各样的关键词识别方法,但由于他们使用了其他公司无法获得的自有关键词数据集,具有排他性。因此,其他人无法复制这些方法,也很难相互比较。
为了解决这一问题,我们为本公司的骁龙®移动平台发布了一个关键词数据集。 Hey Snapdragon关键词数据集包含了50个人所说4个英语关键词语类别的4270个音频片段。
目前的深度学习框架(例如:PyTorch或TensorFlow)可以优化计算图表示。但是,这些深度学习框架并不会优化针对硬件的算子层面转换,而是依赖于手动调优和针对供应商的算子库。
最近,TVM填补了这一空白,TVM是一种编译器框架,可以采用端到端的方式在图层面和算子层面进行优化。对于给定的目标硬件,每个算子定义一个调度配置空间,而TVM可以编译生成的张量程序并测量其在目标硬件上的执行时间。这导致了一个困难的优化问题,在某些GPU用例下,单个conv2d算子的搜索空间包含超过106项的配置。
目前的工作是要学习如何通过数据而不是启发来优化张量程序,从而克服这一问题。如将张量程序视为数据,与算子配置相关的抽象语法树(AST)表征提供了丰富的输入空间。图神经网络(GraphNN)模型非常适合与抽象语法树一起工作,因为它们保留了允许在节点之间传播信息的图形结构。
我们希望这种包含12个独特的conv2d工作负载的新数据集能够使图研究社区受益,并提高对优化编译器研究的兴趣。
创建高通超分辨率处理用栅格化图像数据集的目的是为了促进游戏超分辨率算法的开发和研究。该数据集由不同模式和分辨率的各种场景并行捕获组成。该数据集采用多样化设计,具有各种背景和模型,从而能够更好地推广到新电子游戏中。
高通超分辨率处理用栅格化图像数据集由按每秒60帧的速度捕获的计算机生成帧序列组成。对于每一帧,所有模态均按照从270p到1080p的不同分辨率渲染(包括颜色、深度和运动向量)。该类模态可以利用默认参数生成,或进行多级偏置、抖动、同时进行多级偏置和抖动。
我们希望您能发现这些数据集很有用,并迫不及待地想看看人工智能社区利用这些数据集构建的成果。请关注GitHub更多更新内容账户,以及高通创新中心和高通AI Hub。
在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通公司或其子公司(以下简称为“高通公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通公司或任何其他方的赞同或表述。本网站同样可以提供非高通公司网站和资源的链接或参考。高通公司对于可能通过本网站引用、访问、或链接的任何非高通公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。
关于作者
莉亚·豪辛格-琼达
员工计划分析师