内蒙古自治区人民政府网站
长辈版 微信 微信 无障碍
部门网站导航

自治区政府组成部门

  • 发展和改革委员会
  • 教育厅
  • 科学技术厅
  • 工业和信息化厅
  • 民族事务委员会
  • 公安厅
  • 民政厅
  • 司法厅
  • 财政厅
  • 人力资源和社会保障厅
  • 自然资源厅
  • 住房和城乡建设厅
  • 生态环境厅
  • 交通运输厅
  • 水利厅
  • 农牧厅
  • 商务厅
  • 文化和旅游厅
  • 卫生健康委员会
  • 退役军人事务厅
  • 应急管理厅
  • 审计厅

自治区直属特设机构

  • 国有资产监督管理委员会

自治区直属机构

  • 市场监督管理局
  • 林业和草原局
  • 广播电视局
  • 体育局
  • 统计局
  • 能源局
  • 地方金融管理局
  • 国防动员办公室
  • 医保局
  • 信访局
内蒙古自治区科学技术厅
内蒙古
  • 网站首页
  • 组织机构
  • 科技动态
  • 政务公开
  • 政务服务
  • 互动交流
  • 专题专栏
  • 内蒙古自治区人民政府网站
  • 暖心专区暖心专区
  • 微信政务微信
  • 登录/注册
  • 部门网站导航

    自治区政府组成部门

    • 发展和改革委员会
    • 教育厅
    • 科学技术厅
    • 工业和信息化厅
    • 民族事务委员会
    • 公安厅
    • 民政厅
    • 司法厅
    • 财政厅
    • 人力资源和社会保障厅
    • 自然资源厅
    • 住房和城乡建设厅
    • 生态环境厅
    • 交通运输厅
    • 水利厅
    • 农牧厅
    • 商务厅
    • 文化和旅游厅
    • 卫生健康委员会
    • 退役军人事务厅
    • 应急管理厅
    • 审计厅

    自治区直属特设机构

    • 国有资产监督管理委员会

    自治区直属机构

    • 市场监督管理局
    • 林业和草原局
    • 广播电视局
    • 体育局
    • 统计局
    • 能源局
    • 地方金融管理局
    • 国防动员办公室
    • 医保局
    • 信访局
内蒙古自治区科学技术厅
  • 无障碍浏览
  • 退出长辈版
内蒙古
  • 网站首页

    网站首页

  • 组织机构
  • 科技动态
  • 政务公开
  • 政务服务
  • 互动交流
  • 专题专栏
当前位置: 首页 > 科技动态 > 工作动态 > 科技厅工作

我区重点实验室在语音合成领域取得新进展

来源:内蒙古自治区科技厅基础研究处 发布日期:2022-05-18 09:47 
字体:[ 大 | 中 | 小 ]
分享到:
打印本页

近日,内蒙古大学的自治区蒙古文信息处理技术重点实验室高光来教授科研团队与香港中文大学李海洲教授科研团队合作在国际信号处理领域TOP期刊《IEEE/ACM音频、语音和语言处理汇刊》(IEEE/ACM Transactions on Audio, Speech, and Language Processing)上发表了“神经语音合成训练中的解码知识迁移”(Decoding Knowledge Transfer for Neural Text-to-Speech Training)的最新成果。

该研究得到了2022年内蒙古大学骏马计划高层次人才引进项目以及国家重点研发计划项目,国家自然基金项目,内蒙古自然科学基金项目,内蒙古自治区成果转化项目,内蒙古自治区应用技术研究与开发资金项目等项目的支持。

该研究针对语音合成的鲁棒性、表现力建模问题开展研究,提出了一种多教师知识蒸馏学习的语音合成声学建模方法。

语音合成的主要目的是将输入文本转化为高质量的合成语音,其中,端到端语音合成方法基于“编码器-解码器”结构可以实现优秀的语音合成表现,成为当前语音合成的主流方法。由于端到端语音合成模型的解码器在训练阶段和推理阶段存在解码方式不匹配的问题而导致模型在鲁棒性和表现力方面表现欠佳。为了提升端到端语音合成模型在鲁棒性和表现力两方面的表现,科研团队提出基于多教师知识蒸馏学习的声学建模方法。整个系统包含两个教师模型和一个学生模型:两个教师模型分别采用Teacher-forcing和Scheduled-Sampling解码机制,可以输出真实稳定的语音参数;学生模型则采用模型推理阶段的Free-Running解码机制。在多教师知识蒸馏学习阶段,通过添加多教师蒸馏损失函数,利用教师模型的知识来对学生模型的输出进行指导。训练结束后,学生模型可以在推理阶段直接使用,输出稳定可靠的声学参数进行合成语音的生成。最终,实验结果证明本文方法与传统端到端语音合成模型相比可以合成更加鲁棒和表现力丰富的合成语音。


论文链接:https://ieeexplore.ieee.org/document/9767637


附件:

上一篇: 内蒙古积极构建企业主导的融通创新生态

下一篇: “强党建 助创新”10个基层党支部联合行动助力企业创新发展

中国政府网
科学技术部
内蒙古自治区政府网
各省科技厅网
北京 天津 河北 山西 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 香港
各盟市科技网
呼和浩特市 包头市 赤峰市 兴安盟 通辽市 巴彦淖尔市 乌海市 乌兰察布市 阿拉善盟 锡林郭勒盟 呼伦贝尔市
网站声明 网站地图

主办单位:内蒙古自治区科学技术厅 承办单位:内蒙古自治区科学技术厅 政府网站标识码:1500000057

蒙ICP备2021001220号-1 蒙公网安备15010502002335号

地址:内蒙古呼和浩特市赛罕区丰州南路78号 电话:0471-6328766/6328706 传真:0471-6923617 

微信公众号

内蒙古自治区人民政府网站 无障碍浏览
  • 组织机构
  • 科技动态
  • 政务公开
  • 政务服务
  • 互动交流
  • 专题专栏
当前位置: 首页 > 科技动态 > 工作动态 > 科技厅工作
科技厅工作

我区重点实验室在语音合成领域取得新进展

发布时间:2022-05-18 09:55  来源:内蒙古自治区科技厅基础研究处

近日,内蒙古大学的自治区蒙古文信息处理技术重点实验室高光来教授科研团队与香港中文大学李海洲教授科研团队合作在国际信号处理领域TOP期刊《IEEE/ACM音频、语音和语言处理汇刊》(IEEE/ACM Transactions on Audio, Speech, and Language Processing)上发表了“神经语音合成训练中的解码知识迁移”(Decoding Knowledge Transfer for Neural Text-to-Speech Training)的最新成果。

该研究得到了2022年内蒙古大学骏马计划高层次人才引进项目以及国家重点研发计划项目,国家自然基金项目,内蒙古自然科学基金项目,内蒙古自治区成果转化项目,内蒙古自治区应用技术研究与开发资金项目等项目的支持。

该研究针对语音合成的鲁棒性、表现力建模问题开展研究,提出了一种多教师知识蒸馏学习的语音合成声学建模方法。

语音合成的主要目的是将输入文本转化为高质量的合成语音,其中,端到端语音合成方法基于“编码器-解码器”结构可以实现优秀的语音合成表现,成为当前语音合成的主流方法。由于端到端语音合成模型的解码器在训练阶段和推理阶段存在解码方式不匹配的问题而导致模型在鲁棒性和表现力方面表现欠佳。为了提升端到端语音合成模型在鲁棒性和表现力两方面的表现,科研团队提出基于多教师知识蒸馏学习的声学建模方法。整个系统包含两个教师模型和一个学生模型:两个教师模型分别采用Teacher-forcing和Scheduled-Sampling解码机制,可以输出真实稳定的语音参数;学生模型则采用模型推理阶段的Free-Running解码机制。在多教师知识蒸馏学习阶段,通过添加多教师蒸馏损失函数,利用教师模型的知识来对学生模型的输出进行指导。训练结束后,学生模型可以在推理阶段直接使用,输出稳定可靠的声学参数进行合成语音的生成。最终,实验结果证明本文方法与传统端到端语音合成模型相比可以合成更加鲁棒和表现力丰富的合成语音。


论文链接:https://ieeexplore.ieee.org/document/9767637


附件:

主办单位:内蒙古自治区科学技术厅

蒙ICP备19004535号 蒙公网安备:15010502000857号

增值电信业务经营许可证:蒙B2-20090015

地址:内蒙古呼和浩特市赛罕区丰州南路78号

电话:0471-6328766/6328706 传真:0471-6923617