中科院自动化所智能交互团队多年来深耕语音生成技术,提出韵律与音色个性化解耦建模方法,为小样本语音模仿提供了一种有效的途径。 

  语音模仿技术是指利用一定量的目标人数据生成目标语音,在生活、娱乐、新闻、教育、医疗、金融等重多领域具有广泛的应用前景。但是,在小样本场景下该技术存在声音模仿相似度低和鲁棒性差的问题,这是当前面临的关键技术挑战。针对上述挑战,团队积极开展研究,推动语音模仿技术将声音的要素有效分解,从而解决语音模仿技术对目标人数据需求量大的问题。 

  凭借相关技术成果,团队多次在国内外语音模仿大赛中取得突出成绩。20192020年连续两年获工信部主办的“个性化语音合成”比赛冠军。2021年获依托语音领域国际顶级会议ICASSP举办的“多说话人多风格音色克隆大赛(M2VoC)”的极少样本闭集赛道(给定5个语音样本约1分钟)赛道冠军。 

  据悉,“个性化语音合成”比赛由工业和信息化部信息中心、国家工业信息安全发展研究中心等联合主办,大赛旨在发掘人工智能领域原创技术、创新产品和变革应用,推动人工智能创新创业项目落地。大赛决赛分为应用挑战和双创激荡两个大的方向,经过专家评审,共有55支队伍参加现场总决赛。“个性化语音合成”赛道的任务是利用50句约10分钟的语音模仿目标说话人的说话风格信息。M2VoC国际挑战赛依托2021年语音声学领域国际顶级会议(ICASSP 2021)举办,旨在提供一个通用的数据集以及一个公平的测试平台,对语音克隆模仿任务进行研究,共150多支队伍报名。极少样本闭集赛道(给定5个语音样本约1分钟)只能使用比赛提供的数据训练模型,难度极高。 

  相关技术研究能够为个性化语音生成提供理论支持,可以大幅降低语音模拟的经济与时间成本,对多媒体信息智能生成的发展具有重要意义。 

 

 

附件: