智能交互团队提出韵律与音色解耦建模的新方法，接连斩获大赛佳绩----中国科学院自动化研究所

科学研究

科研动态

智能交互团队提出韵律与音色解耦建模的新方法，接连斩获大赛佳绩

发布时间: 2021-03-05

【字体：大中小】

　　中科院自动化所智能交互团队多年来深耕语音生成技术，提出韵律与音色个性化解耦建模方法，为小样本语音模仿提供了一种有效的途径。

　　语音模仿技术是指利用一定量的目标人数据生成目标语音，在生活、娱乐、新闻、教育、医疗、金融等重多领域具有广泛的应用前景。但是，在小样本场景下该技术存在声音模仿相似度低和鲁棒性差的问题，这是当前面临的关键技术挑战。针对上述挑战，团队积极开展研究，推动语音模仿技术将声音的要素有效分解，从而解决语音模仿技术对目标人数据需求量大的问题。

　　凭借相关技术成果，团队多次在国内外语音模仿大赛中取得突出成绩。2019和2020年连续两年获工信部主办的“个性化语音合成”比赛冠军。2021年获依托语音领域国际顶级会议ICASSP举办的“多说话人多风格音色克隆大赛（M2VoC）”的极少样本闭集赛道（给定5个语音样本约1分钟）赛道冠军。

　　据悉，“个性化语音合成”比赛由工业和信息化部信息中心、国家工业信息安全发展研究中心等联合主办，大赛旨在发掘人工智能领域原创技术、创新产品和变革应用，推动人工智能创新创业项目落地。大赛决赛分为应用挑战和双创激荡两个大的方向，经过专家评审，共有55支队伍参加现场总决赛。“个性化语音合成”赛道的任务是利用50句约10分钟的语音模仿目标说话人的说话风格信息。M2VoC国际挑战赛依托2021年语音声学领域国际顶级会议（ICASSP 2021）举办，旨在提供一个通用的数据集以及一个公平的测试平台，对语音克隆模仿任务进行研究，共150多支队伍报名。极少样本闭集赛道（给定5个语音样本约1分钟）只能使用比赛提供的数据训练模型，难度极高。

　　相关技术研究能够为个性化语音生成提供理论支持，可以大幅降低语音模拟的经济与时间成本，对多媒体信息智能生成的发展具有重要意义。

附件：