我区重点实验室在语音合成领域取得新进展
发布时间:2022-05-18 09:55 来源:内蒙古自治区科技厅基础研究处
近日,内蒙古大学的自治区蒙古文信息处理技术重点实验室高光来教授科研团队与香港中文大学李海洲教授科研团队合作在国际信号处理领域TOP期刊《IEEE/ACM音频、语音和语言处理汇刊》(IEEE/ACM Transactions on Audio, Speech, and Language Processing)上发表了“神经语音合成训练中的解码知识迁移”(Decoding Knowledge Transfer for Neural Text-to-Speech Training)的最新成果。
该研究得到了2022年内蒙古大学骏马计划高层次人才引进项目以及国家重点研发计划项目,国家自然基金项目,内蒙古自然科学基金项目,内蒙古自治区成果转化项目,内蒙古自治区应用技术研究与开发资金项目等项目的支持。
该研究针对语音合成的鲁棒性、表现力建模问题开展研究,提出了一种多教师知识蒸馏学习的语音合成声学建模方法。
语音合成的主要目的是将输入文本转化为高质量的合成语音,其中,端到端语音合成方法基于“编码器-解码器”结构可以实现优秀的语音合成表现,成为当前语音合成的主流方法。由于端到端语音合成模型的解码器在训练阶段和推理阶段存在解码方式不匹配的问题而导致模型在鲁棒性和表现力方面表现欠佳。为了提升端到端语音合成模型在鲁棒性和表现力两方面的表现,科研团队提出基于多教师知识蒸馏学习的声学建模方法。整个系统包含两个教师模型和一个学生模型:两个教师模型分别采用Teacher-forcing和Scheduled-Sampling解码机制,可以输出真实稳定的语音参数;学生模型则采用模型推理阶段的Free-Running解码机制。在多教师知识蒸馏学习阶段,通过添加多教师蒸馏损失函数,利用教师模型的知识来对学生模型的输出进行指导。训练结束后,学生模型可以在推理阶段直接使用,输出稳定可靠的声学参数进行合成语音的生成。最终,实验结果证明本文方法与传统端到端语音合成模型相比可以合成更加鲁棒和表现力丰富的合成语音。
论文链接:https://ieeexplore.ieee.org/document/9767637