元象XVERSE与清华大学合作研发元宇宙人机交互解决方案
发表于 2023-03-13 14:35:02

元象与清华宣布在人机交互方向的合作研究入选两大国际语音顶级会议——四篇合作研究论文入选声学、语音和信号处理领域顶级会议 ICASSP,涉及的音乐生成舞蹈、语音合成、语音识别技术获国际认可。ICASSP由电气电子工程师学会(IEEE)主办,是全世界最大的、最全面的信号处理及应用领域顶会,每年吸引语音和AI领域数千名学者和企业专家参与,在国际上享有盛誉。

2022年六月,双方还有三篇论文登上语音通讯协会大会INTERSPEECH,涉及语音合成、语音转换、歌声合成、语音增强等技术,这是语音研究领域最大、最全面的国际顶会。

元象XVERSE与于2022年在人机语音交互开展前瞻产学研合作,目标是探索“人-机器-环境”之间的高效交互,让AI以更自然的方式与人互动,服务于人。

语音是人与人之间最自然的交流方式,对于元宇宙的“元力释放”同样重要。比如不点屏幕图标,用简单语言交流完成繁复操作,是颇具潜力的未来交互方式;而“数字人”作为多模态交互的关键成果,离不开前端声学处理、语音唤醒、识别到合成等语音技术发展。

双方合作主攻两个方向:一是“音色克隆算法”,打造个性化、小数据量、千人千面的语音合成系统,提升合成声音的相似度、可懂度、自然度等。二是“音乐生成舞蹈”,创新骨骼动画生成算法,让AI从简单到复杂学习人类运动模式,生成自然生动的肢体语言。

清华THUHCSI正是国内顶级人机语音交互研究中心,聚焦AI场景下的智能语音交互技术研究,曾多次负责国家科技攻关项目,并拥有国际一流的科研团队,在IEEE、ACM等国内外一流期刊与会议发表论文100余篇,拥有发明专利20余项。

未来双方继续建设产学研协同创新平台,不断拓宽元宇宙边界,推动科技成果转化向新、向实、向深。

入选论文摘要介绍

元象“数字人多模态交互”全链路规划

元象的“数字人多模态交互”规划,全面覆盖数字人的语音、语言、形象三个模态的相互作用和转换关系。与清华大学的合作,重点关注了音乐智能和语音交互部分,此次研究亦集中于此。其中的重点技术将在之后陆续解读,敬请期待。

① GTN-Bailando: 基于预训练的流派令牌网络的3D舞蹈生成 (2023 ICASSP)

GTN-Bailando: Genre Consistent Long-Term 3D Dance Generation based on Pre-trained Genre Token Network

论文主要创新点:音乐生成舞蹈是近年热门研究方向。现有大多数舞蹈生成方案缺乏对舞蹈流派信息(Genre)的考虑,导致生成舞蹈动作中流派不一致,影响观感。此外,舞蹈流派与音乐相关性也未考虑。我们提出了一个创新舞蹈生成框架GTN-Bailando,通过流派令牌网络(Genre Token Network)从音乐推断流派,再将流派信息引入舞蹈生成框架,保持一致。其次,为了提升流派令牌网络的泛化能力,我们对其采用了预训练和微调的策略。在AIST++数据集上的实验结果表明,所提出方案在舞蹈质量和流派一致方面皆优于现有最佳的舞蹈生成方案。

② 汉语语音合成中基于层级上下文信息的多尺度说话风格预 (2022 INTERSPEECH)

Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis

论文主要创新点:本文针对表现力语音合成提出了一种基于上下文层级信息的多尺度说话风格建模方法,从全局层面、句子层面和字层面对韵律的变化进行建模,以捕捉和预测自然语音中多尺度的说话风格。该方法在FastSpeech 2的基础上增加了一个多尺度风格提取器和一个多尺度风格预测器(上图)。多尺度风格提取器被用于从全局、句子和每个字对应的语音片段中提取三个不同层级的说话风格向量(中图)。在提取器的基础上,多尺度风格预测器从上下文中提取不同层级的信息,然后以残差连接的方式依次预测全局层面、句子层面和字层面的说话风格(下图)。特别地,为了减少不同层级说话风格之间的冗余信息,本文以残差的方式建模不同层次的风格变化。实验表明,由于更好地建模了不同层级的说话风格特征,本文提出的方法可以大大改善合成语音的自然度和表现力。

③ 基于BERT语义信息的高表现力歌声合成 (2022 INTERSPEECH)

Towards Improving the Expressiveness of Singing Voice Synthesis with BERT Derived Semantic Information

论文主要创新点:本文提出了一个端到端的高质量中文歌声合成(SVS)模型,使用基于BERT所提取的歌词语义信息来提高合成歌声的表现力。基于近期所提出的VISinger的主要架构,我们的模型提出了几个进一步的改进方案,以增强合成歌声的表现力。首先,与现有的SVS模型不同,我们的模型引入了基于BERT的语义提取模块,用于从歌词中提取出语义信息,以帮助模型在生成歌声时更切合语义表达的需求。其次,模型还进一步引入了一个能量预测器,在稳定合成歌声的同时,能对大范围的能量变化进行建模,以生成更贴合真实能量分布(如渐变)的歌声。最后,为了减少模型的跑调问题、提高模型合成音高的准确性,我们重新设计了音高预测器,该预测器预测歌声的唱腔音高与乐谱音高的比值,而非直接预测唱腔音高。客观和主观的实验结果都表明,本文所提的SVS模型可以产生比VISinger更高质量、更有表现力的歌声,且上述三个模块均有助于提升歌声的表现力。

④ 利用多层级上下文信息改进汉语韵律结构预测 (2022 INTERSPEECH)

Improving Mandarin Prosodic Structure Prediction with Multi-level Contextual Information

论文主要创新点:本文针对韵律结构预测任务提出了一种利用多层级上下文信息提高韵律结构预测性能的方法。与以往工作相比,该方法在预测给定语句的韵律结构时,不仅利用了当前待预测语句的文本信息,还利用了来自上下文中其他语句的文本信息。给定当前语句及其上下文,该方法首先使用BERT语义提取模块获取每个语句的语义信息。之后该方法通过一个层级编码器从文本的字符层级、句子层级及篇章层级分别提取每个语句的字符表示、每个语句的句子表示以及包含了来自上下文其他语句语义信息的篇章表示。字符表示、句子表示和篇章表示共同构成了多层级上下文信息。最后,一个多任务学习解码器负责使用多层级上下文信息预测韵律结构。客观实验和主观实验表明,相较以往工作,本文所提出的方法不仅能够提高韵律结构预测的性能,还可以帮助语音合成模型合成更加自然的语音。

⑤ 有声读物合成中基于层级transformer的上下文感知连贯说话风格预测 (2023 ICASSP)

Context-aware Coherent Speaking Style Prediction with Hierarchical Transformers for Audiobook Speech Synthesis

论文主要创新点:如何为有声读物中多句连续文本生成符合上下文语境且具有连贯性的说话风格,对提升有声读物合成语音的表现力至关重要。本文为有声读物合成提出了一种结合多模态、多句子上下文信息的说话风格预测方法。我们设计了一个基于层级变换器(Hierarchical Transformer)的上下文感知风格预测器,在混合注意力掩码机制的帮助下同时考虑文本侧的上下文信息和语音侧的历史语音风格信息,以更好地预测上下文中每句话的说话风格。在此基础上,我们提出的模型可以逐句生成具有连贯说话风格和韵律的长篇语音。实验表明,该方法可以为单一句子和多个连续句子生成比基线更具有表现力和连贯性的语音。

⑥ CB-Conformer: 用于热词识别的上下文偏置Conformer(2023 ICASSP)

CB-Conformer: Contextual Biasing Conformer for Biased Word Recognition

论文主要创新点:由于源域和目标域不匹配的问题,如何充分利用热词信息(biased word)对提升语音识别模型的性能至关重要。在本工作中,我们提出了CB-Conformer,通过在传统Conformer中引入上下文偏置模块和自适应语言模型来提高热词识别的性能。上下文偏置模块结合了音频片段和上下文信息,参数量只占原始Conformer模型参数的0.2%。自适应语言模型根据热词召回率和精确度修改热词在语言模型内部的权重,从而更加专注于热词识别;与普通的固定权重的语言模型相比,所提的自适应语言模型与原始语音识别模型更为契合。此外,我们基于WenetSpeech数据集构建并开源了一个普通话热词数据集。实验表明,与Conformer相比,所提出的方法的语音识别字错误率降低了15.34%,热词识别召回率提高了14.13%,热词识别F1-score提高了6.80%。

⑦ TFCNet:用于语音分离的时频域校正网络 (2023 ICASSP)

TFCNet: Time-Frequency Domain Corrector for Speech Separation

论文主要创新点:目前主流的语音分离方法是基于时域的方法,即直接使用神经网络模型对语音波形信息进行编码,提取特征,最终解码得到分离后的语音。虽然时域方法在语音分离上取得突出的性能,但它在编码上存在着不稳定性。这主要是因为时域方法在编码中用可学习的卷积代替了语音信号处理中的快速傅里叶变换(STFT),这种方法虽然能学习到一定的隐藏频谱空间,但不一定和真实的频谱空间一致,导致分离的语音和真实的语音在频谱上存在幅度及相位误差。在本文中,我们提出了TFCNet,其由时域的分离器和频域的校正器构成。频域校正器针对时域分离器的不足而特别进行设计,以便从幅度和相位两部分纠正错误的频谱信息。在WSJ0-2mix和Libri-2mix数据集上的实验结果表明,加入校正器后分离性能有了巨大提升,超过了之前最先进的语音分离方法。

【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及中文陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。凡注明为其他媒体来源的信息,均为转载自其他媒体,转载并不代表本网赞同其观点,也不代表本网对其真实性负责。您若对该稿件由任何怀疑或质疑,请即与CSDN联系,我们将迅速给您回应并做处理。】

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】