随着我国加入WTO,我国的标准化工作越来越呈现国际化的趋势,无论是自身标准被国际采用,还是参与国际标准化组织的步伐都急速的加快。近几年来,在World Wide Web Consortium (W
一、 语音合成标注语言(SSML)
SSML(Speech Synthesis Markup Language)工作组是W
SSML1.0版本针对的主要是英语,没有考虑到其他语系的特点,使得它无法被更加广泛地应用。在这个背景下,SSML工作组在2005年开始了语音合成置标语言国际化的工作。中国科学院自动化所作为科学院的唯一代表,加入了SSML国际化的工作,致力于修改当前的SSML版本,使之能更好的适应汉语的需求。
从去年以来,工作组分别于2005年10月、2006年4月、7月和10月,在北京和香港等地召开了四次会议。在这次会议上,对SSML1.0提出了针对汉语特点的若干修改意见,力图使传统SSML语言能够适应于汉语的特殊要求,如汉语的词特性、拼音标记特性、声调特性、姓氏特性等。经过这四次讨论,已经完成了针对SSML1.0的修改草案。并按照预定计划在2007年提出SSML1.1版本。届时,该版本将使XML语言框架中,对中文语音合成能够产生更好的支持。为推广汉语语音合成技术的应用,使之能产生更大的经济效益和社会效益,将产生重要的意义。
二、 情感标注语言(EMOTION)
随着信息时代的来临,各种web技术日新月异,纷纷涌现出来。如何引导新技术的潮流,使新技术更好地应用于、服务于日常生活中,是当前IT领域从业者所首先要考虑的问题。近年来,情感的研究一直是人机交互领域研究的一个热点,由于人类相互之间的沟通与交流是自然而富有感情的,因此,在人机交互的过程中,人们也很自然地期望计算机具有情感以及自然和谐的交互能力。对情感的研究就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,最终像人一样能进行自然、亲切和生动的智能交互。W
Emotion小组所讨论的内容主要包括以下三个部分:第一部分是研究情感数据的标注,包括应该标注什么内容以及如何进行标注。所涉及的数据类型相当广泛,文本数据、语音数据以及多模态数据都在讨论范围之内。第二部分主要处理情感的自动识别和分类,主要研究如何从文字、语音、多模态数据中提取特征,然后利用机器学习算法进行情感的识别。第三部分主要处理情感的产生,研究如何基于一定标准的标注信息产生情感,在包括语音、表情及姿态的多模态数据中产生情感。
中科院自动化所作为整个标准的发起单位之一,参与了所有三个项目的讨论,并且同日本Emotion AI的Ian Wilson教授共同担当情感产生讨论小组的主席。中科院自动化所在情感研究方面已经有了较多的研究积累:在情感标注方面,自动化所提出了基于多维矢量的情感标注方法;在情感识别方面,自动化所建立了在通信环境下的情感识别系统,可以判断对话人的友好度及关注度,并且成功地应用在电信增值服务中,在福州联通中已经发展到2万用户。除此之外,自动化所还研制了基于多模态数据的情感识别系统,通过有效的整合音频特征和视频特征,极大地提高了识别的准确率;在情感产生方面,自动化所构建了基于韵律转换的情感语音合成系统和基于fap参数的情感表情表达系统。
到目前为止,W