当前位置:首页 > 新闻中心 > 科研动态

科研动态

自动化所参与W3C中系列标准的制定工作

  • 发表日期:2007-01-14 【 【打印】【关闭】
  • 随着我国加入WTO,我国的标准化工作越来越呈现国际化的趋势,无论是自身标准被国际采用,还是参与国际标准化组织的步伐都急速的加快。近几年来,在World Wide Web Consortium (W3C)下面成立了两个与人机交互密切相关的两个工作小组,语音合成置标语言 (Speech Synthesis Markup Language SSML)工作小组、情感标注语言(Emotion)工作小组,这个标准的制定对面向下一代的人机交互平台具有十分重要的意义。中国科学院自动化研究所陶建华作为国内学术单位的正式代表,参加了这两个标准的制定工作,具体情况如下:

    一、       语音合成标注语言(SSML

    SSML(Speech Synthesis Markup Language)工作组是W3C(World Wide Web Consortium)Voice Browsing Working Group下属的一个致力于制订语音合成置标语言规范的团体。工作组的目标是为开发者(主要是针对互联网的应用)提供一套基于XML语言的规范,使得用户能够在不了解语音合成技术细节的情况下,使用这套规范,调用语音合成引擎,定制所需要的语音。到2005年为止,这个工作组已经推出了SSML1.0http://www.w3.org/TR/speech-synthesis

    SSML1.0版本针对的主要是英语,没有考虑到其他语系的特点,使得它无法被更加广泛地应用。在这个背景下,SSML工作组在2005年开始了语音合成置标语言国际化的工作。中国科学院自动化所作为科学院的唯一代表,加入了SSML国际化的工作,致力于修改当前的SSML版本,使之能更好的适应汉语的需求。

    从去年以来,工作组分别于200510月、20064月、7月和10月,在北京和香港等地召开了四次会议。在这次会议上,对SSML1.0提出了针对汉语特点的若干修改意见,力图使传统SSML语言能够适应于汉语的特殊要求,如汉语的词特性、拼音标记特性、声调特性、姓氏特性等。经过这四次讨论,已经完成了针对SSML1.0的修改草案。并按照预定计划在2007年提出SSML1.1版本。届时,该版本将使XML语言框架中,对中文语音合成能够产生更好的支持。为推广汉语语音合成技术的应用,使之能产生更大的经济效益和社会效益,将产生重要的意义。

    二、       情感标注语言(EMOTION)

    随着信息时代的来临,各种web技术日新月异,纷纷涌现出来。如何引导新技术的潮流,使新技术更好地应用于、服务于日常生活中,是当前IT领域从业者所首先要考虑的问题。近年来,情感的研究一直是人机交互领域研究的一个热点,由于人类相互之间的沟通与交流是自然而富有感情的,因此,在人机交互的过程中,人们也很自然地期望计算机具有情感以及自然和谐的交互能力。对情感的研究就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,最终像人一样能进行自然、亲切和生动的智能交互。W3CEmotion小组正是基于这样一个目的建立的,期望通过全球范围研究者的讨论、交流,建立一个一般意义的、完整统一的情感标注和表达体系,该标注可以应用在任何涉及情感研究的项目,如情感识别、情感表达中,从而促进情感研究的发展。参与Emotion小组的成员包括了中科院自动化所、德国DFKI研究所、德国电信、英国Edinburgh大学、意大利电信等21个成员单位。

    Emotion小组所讨论的内容主要包括以下三个部分:第一部分是研究情感数据的标注,包括应该标注什么内容以及如何进行标注。所涉及的数据类型相当广泛,文本数据、语音数据以及多模态数据都在讨论范围之内。第二部分主要处理情感的自动识别和分类,主要研究如何从文字、语音、多模态数据中提取特征,然后利用机器学习算法进行情感的识别。第三部分主要处理情感的产生,研究如何基于一定标准的标注信息产生情感,在包括语音、表情及姿态的多模态数据中产生情感。

    中科院自动化所作为整个标准的发起单位之一,参与了所有三个项目的讨论,并且同日本Emotion AIIan Wilson教授共同担当情感产生讨论小组的主席。中科院自动化所在情感研究方面已经有了较多的研究积累:在情感标注方面,自动化所提出了基于多维矢量的情感标注方法;在情感识别方面,自动化所建立了在通信环境下的情感识别系统,可以判断对话人的友好度及关注度,并且成功地应用在电信增值服务中,在福州联通中已经发展到2万用户。除此之外,自动化所还研制了基于多模态数据的情感识别系统,通过有效的整合音频特征和视频特征,极大地提高了识别的准确率;在情感产生方面,自动化所构建了基于韵律转换的情感语音合成系统和基于fap参数的情感表情表达系统。

    到目前为止,W3C Emotion小组已经召开了三次电话会议,整个标准的讨论工作已经渐渐走上轨道,参与讨论的各方在一些基本性问题上已经达到了一定的共识。相信随着讨论的深入进展,一定能够极大地促进情感研究的发展,为创建更为和谐的人机交互环境而铺平道路。