前不久,人民网、新华网等数家媒体驻英国伦敦记者纷纷传回消息:“国际口语翻译先进研究联盟(U-STAR)发布23国语言翻译系统,以多国语言翻译实验性服务迎接奥运。中科院自动化所作为中国U-STAR发起单位之一,承担了中英互译项目。”与此同时,自动化所研发的一项新成果——紫冬口译(DirectTrans)也在Android智能手机上线。为一睹这项新成果的真容及其研发团队,笔者于近日走进了数字内容技术与服务研究中心(以下简称“中心”),向组员们作了一番深入打探。
攀爬“通天塔” 的梦想
由于笔者探访目的明确,经过一番联络后,便直奔了口语翻译课题组所在的实验室——自动化大厦821室。笔者探访时,正值紫冬口译(由你说)进行演示活动。
“欢迎来到中国科学院自动化研究所。”笔者在演示现场拿起一只手机随口说了一句。随后,手机话筒便传出了一句清晰的英文:“Welcome to the Institute of Automation Chinese Academy of Sciences。”
基于云计算的移动终端口语翻译系统V1.0
说及语音翻译,中心成员向笔者娴熟地说起了圣经里关于“通天塔”的故事:据说远古时代的人类是讲着同一语言的。他们决心造一座能直耸天际的巨塔,企盼能登上天堂。随着通天塔越造越高,众神开始感到恐惧,于是三番四次制造天灾摧毁巨塔,人类却毫不气馁,继续着与神的抗争,众神最后釜底抽薪,令所有人类各自说着不同的语言,人类无法沟通,通天塔便半途而废。
据课题组成员介绍说,为搭建人类“通天塔”,实现全球范围内跨国跨语种交流,人们一直在寻找克服语言障碍的途径:先是翻译,然后是世界语,再到计算机自动翻译。从1945年信息论先驱Warren Weaver提出机器翻译的可计算性,计算机自动翻译之路已经走了60多年。但是,从理论上证明机器翻译完全可计算仍然是一件并不容易的事情。
即便探索语音翻译的任务很艰难,但是,“作为智能计算机研究的主要方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注,实现无障碍的跨语言沟通也一直是机器翻译追求的目标。”实现语音识别曾一度被喻为“登陆月球”,而语音翻译则被人们喻为“登陆火星”,可见口语翻译的难度之大。
据了解,国际上对口语翻译较早,进行研究的主要是德国Verbmobil开发计划和国际口语翻译先进研究组织(International consortium for Steech Translation Advanced Research,C-STAR),并于2010年发展为国际口语翻译先进研究联盟(Universal Speech Traslation Advanced Research Consortium ,简称U-STAR)。课题组介绍说,我国在上世纪90年代中期介入这个领域,一直保持着雄厚的研究和技术实力。即使在过去十年前,语音研究进入全球研究低潮期时,课题组也通过行业应用保持了一支适度规模的队伍。
开发人员向专家展示紫冬口译(由你说)系统
口语翻译课题组所在的部门——数字内容技术与服务研究中心,年初刚从高技术创新中心分离出来,经过不断调整和优化,目前管理上分为多语言口语自动同声翻译与服务(简称“口语翻译小组”)、网络音视频内容处理和服务(简称“音视频小组”)、面向医疗、娱乐领域领域的虚实融合系统(简称“3D小组”)等3个大方向。同时研究所重大研究方向“超级计算大脑系统”也依托该中心,旨在实现人类对跨媒体信息更深层次的理解。中心现有研究员2人,副研究员10人,助理研究员14人,硕士博士研究生18人,及工程技术项目聘用人员49人。“中心现在已经成为一支由中青年骨干科研人员为核心,博士、硕士研究生集体参与的多层次复合型技术研发团队。”
中心员工正在紧张工作
在谈及战略定位和研究方向时,中心负责人徐波介绍说:“中心的目标是用智能技术引领行业发展,重点发展基于内容识别与理解的高端知识服务和人机交互技术,为中国数字内容产业提供前瞻性和引领性的关键核心技术和系统整体解决方案。”从这个定位出发,在人员上进行队伍优化,使事业编制、项目聘用、研究生比例结构更趋合理,符合战略高技术研发的内在要求;在研究方向上,经过长时间的凝练和不断优化,形成面向媒体发展需求、具有明确应用背景、针对性很强的研究方向。
“在数字内容大规模应用服务上力求技术创新”
通过与组员访谈,笔者得知,面向应用需求来设置研究方向的理念此前已经在广泛运用的口语评估测试和网络音视频处理中体现出来。课题组人员介绍说,口语评估测试是语音识别的针对性应用。中心从05年开始经过长期的市场摸索和技术改进,终于从2009年开始在江苏省实现了正式考试,年均完成考试规模100多万人次,是国际上最大规模的英语全自动化考试和服务。现在,这项成果在完成大规模应用服务后已经实现了技术转移。
自动化口语评估测试系统(考试现场)
网络音视频处理也是这样,目前内容监测行业推广已在国家广电监管中心各直属监测台、中国国际广播电台、中央电视台、云南、上海、黑龙江、成都、宜宾等30多个单位使用,累计推广系统70多套,成为针对互联网、广播电视网、IPTV、手机电视,面向新闻、广告、专题、节目等系统化、系列化的监管平台和监管能力。广播电视/互联网/内容检索等技术获得2009 年广电总局科技创新一等奖、2011年二等奖和三等奖各一项。
网络音视频技术研究成果参加中关村2009年创新展
近年来,海量数据和基于大规模云计算平台的翻译技术的迅速发展,以及3G移动通信技术的普及,为口语翻译走向实际应用提供了理想应用平台。紫冬口译便是结合了海量数据和云计算等新技术,“在强大的云计算集群和高速网络连接的支持下,整个翻译交互过程在数秒钟之内就能完成,识别和翻译结果均能达到可用的水平,为用户带来了非常便捷和高效的使用体验。”
口语翻译研究组组长高鹏介绍说,此次推出的口语翻译系统尚处于线上试运行阶段,随着用户使用频率的增加将会进一步改进和完善,为用户提供更加个性化、更准确的翻译服务,并可广泛运用于机场、海关、旅馆咨询、购物、餐馆对话、旅游观光、娱乐、天气预报、公共交通等众多领域。
“需求和基础研究、技术创新的结合是一个艰苦而长期的过程。但不管怎样,首先是需要一群能够认同把自己的研究与社会需求相结合才能实现自身最大价值理念的人群。在此理念下,需要不同专长人员的密切配合,需要百折不挠的精神,方能成功。2005年开始的口语评估方向历经3年还没修成正果,当团队一度产生气馁时候,是信念和坚持终于迎来了2009年的规模化正式考试。行业应用也是这样,同样需要与用户进行长时间的磨合,达到需求和技术能力的协同,方能创新。”
“现实需要是理论研究的一双眼睛”
语音翻译是一项综合了理论研究和实际应用的一项研究。在谈及研究的体会时,课题组成员和研究所其他从事应用研究的课题组有共同的感受,一方面是在应用基础研究上深入,以期为实际运用奠定基础,同时又面向实际应用,以促进理论研究真正化解现实问题。
音视频组广电应用课题负责人姜洪臣告诉笔者:“我们广电应用组在实际应用中遇到的问题,我们会及时反馈给我们的音视频处理技术小分队,和他们一起商量化解方法,或者改变我们的算法,或者优化我们的程序,以找到新的方法来满足客户的需求。”“现实需要我们两只眼睛来做研究,一只眼睛看着应用实际需求,一只眼睛盯着理论研究。”
广播电视音视频综合处理系统
“关键是要有自己的定位,确定好自己的价值目标,这样才能有一个比较平和的心态。如果自己的研究成果真正能够解决一些生活中的问题,心里也就满足了。”音视频组安全应用课题负责人郑榕说道。
互联网内容智能监测平台
相比于其他小组,3D小组是近两三年刚建立起来的团队。刚组建时,团队侧重于最深入地了解虚拟现实技术领域工业界和学术界的发展现状,及整个行业技术创新概貌。通过与现实需求、国家立项等结合,逐步选择了虚实融合医疗专用系统以及3D体感式电影制作等作为研究重点。目前,中心正在不断深化近年研制的实时渲染、人机交互、全流程3D制作等技术并加以适当集成,研制出自主可控的互动3D生产流程,期望对行业产生重要影响。一方面,“我们的虚拟现实技术还处在积累状态,研究需要一份平心静气。”另一方面,“在快速发展的3D时代,需要我们快跑并站在未来的制高点上。”3D组课题负责人王政、黄向生如是说。
3D云服务系统
在近年来的快速发展中,中心已经有了较为实足的积淀,面向当前的数字发展趋势,成员们也形成了一个明确的目标,就是通过大规模应用,触摸到用户的需求并实现核心技术的突破,从而形成相应的进入门槛。
“发布一个系统,仅仅是开始,未来之路还很长很艰苦。但这就是我们的价值所在,我们需要理性,但更需要激情。我们期待着数字内容为产业界提供可转移、可大规模推广的数字内容技术和服务。”
后记:庄子言:“吾生也有涯,而知也无涯。”研究所的科研工作者们沿着前人铺下的基石继续一层一层向上攀爬,直至顶层,然后再以自己的力量垒上几块砖头,只为搭建人类的通天塔。全球有6万余种语言,如今,23国语言翻译系统已经进入实验性服务阶段,也让人们更有理由相信,实现人类语言无障碍沟通的“全球通”终将不是梦。