数据开源 | 高质量双工自然对话中文语音数据集，引领AI实时交互新体验-CSDN.NET

CSDN首页> 业界

订阅业界RSS

数据开源 | 高质量双工自然对话中文语音数据集，引领AI实时交互新体验

发表于 2025-01-09 15:39:30

在快速发展的人工智能领域，技术突破与用户体验提升正引领着语音对话模型迈向新的高度。从最初的简单问答到如今复杂多变的对话场景，人机交互正经历着前所未有的深刻变革。传统的训练数据已难以适应当前的需求，现代交互要求系统不仅能理解语言的上下文，还需快速识别用户的需求并作出恰当反馈。

　　在此背景下，晴数智慧联合中国科学院声学研究所，共同开源了“双工自然对话语音数据集_中文”，为语音对话模型提供更加真实、细腻的训练数据。通过对每位说话者语音的独立分析，该数据集让语音对话模型能够洞察对话中的上下文变化、语调起伏以及情感波动，从而生成更加自然、准确的回应。同时，双工分离数据让端到端模型的构建更为精准，反馈速度更快。

　　数据集描述

　　晴数智慧开发的多通道自然对话语音数据集，旨在解决当前语音对话模型面临的两大问题：一是如何在复杂对话环境中准确捕捉并区分每位说话者的语音信息；二是如何使AI模型更好地理解并适应自然对话中的打断、交互等动态过程。

微信图片_20250109151150.jpg

　　上图为双工语音交互模型架构图。双工语音交互模型（如 dGSLM [1]、Moshi [2]和SLIDE [3]）突破了传统单工语音交互模型一问一答的僵化响应模式，实现了同步听说以及在交互过程中自然的打断与插话。然而，这些模型的训练高度依赖双工自然对话语音数据。而此类数据的稀缺，尤其是在中文领域，严重限制了上述模型的性能提升。

　　为解决这些问题，我们采取了创新的数据采集与处理策略。首先，通过独立采集每位说话者的音轨，并单独对每个说话人做分类标注，完整的保留了对话过程中自然的打断，交互等过程。其次，通过将每位说话者的音频分离，我们能够提供更清晰、更精准的训练数据，使模型更专注于理解和响应自然说话的交互过程。

　　为了让大家更直观地了解我们的多通道数据，我们特别选取了5小时的对话内容作为本次开源数据集。本数据可以用于模型的微调或者测试使用（非商用）。

　　数据集优势与亮点

　　自然度：捕捉真实场景下的自然对话，确保数据的高度自然流畅；

　　领域多样性：覆盖多个行业与话题，满足跨领域应用需求；

　　地域多样性：融入不同地域的语音特征，增强模型的泛化能力；

　　副语言标签：特别标注副语言信息，如语气、停顿等，为深度情感分析与交互体验升级提供有力支持。

　　除了中文双工对话数据开源之外，我们同样开源了英语双工对话数据，对英语双工数据感兴趣的朋友，欢迎通过以下链接下载并使用，探索更多可能～

「免责声明」：以上页面展示信息由第三方发布，目的在于传播更多信息，与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担，以上网页呈现的图片均为自发上传，如发生图片侵权行为与我们无关，如有请直接微信联系g1002718958。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】