多语言服务平台结构图(由首信公司提供的模块)


 
中文信息处理将是中国多语言服务技术的核心

《圣经》里有这样一个故事:巴比伦地区的人们想建造一座塔,让它直通到天上去。上帝看见人类竟敢做这种事情,就想了一个办法搞破坏。建塔的人们本来说着同一种语言,心意相通、齐心协力地在干活。上帝就偏偏让他们的语言变得五花八门、奇奇怪怪。这样,人们再也听不懂对方在说什么,误解、分歧使大家终日吵吵闹闹,再也无心干活。后来人们把这座塔叫做巴别塔。“巴别”的意思就是“分歧”。 

巴别塔虽然停建了,但一个梦想却永远留在了人们心中:什么时候人类才能拥有相通的语言、重建巴别塔呢? 

从翻译,到世界语,再到目前的自动翻译,事实上,人类一直在寻找克服语言沟通障碍的途径。而即将到来的2008年北京奥运会,使得语音翻译的需求更加迫切。要实现北京奥申委在申奥报告中提出的承诺,中国就要在整个奥运会期间“Any Time”(任何时间)、“Any Where”(任何地点)、“Any One”(任何人)和“Any Device”(任何工具)地提供智能化多语言服务。而突破语言交流的瓶颈,就要实现多种语言之间语音、文本等信息的实时交互与自由沟通。

 

来之不易的多语言服务 

20088月的北京,奥运会的气氛就像天气一样火热。自奥运会开赛以来,来自世界各地的体育代表团先后抵达北京。在机场的奥运接待中心,英国足球教练约翰除领到一个身份证外,还有一个奥运终端。” 

在接受《科学时报》采访时,首信公司的IT服务总监高佳卿先给记者看了一个短片。作为北京2008年奥运会多语言服务供应商,短片中提到的奥运多语言终端就是首信提供多语言服务平台的延伸与组成部分。在短片中,约翰不仅可以与奥运多语言终端交谈,了解北京的天气、宾馆等城市信息,而且还可以随时获知赛事安排、场馆情况等等。在比赛间隙,约翰购物时,这款终端还能充当贴身导游和个人翻译。 

“实际上,用户除了透过奥运官方网站的观众服务频道及其多语言平台享受多语言服务外,还可以通过移动终端、呼叫中心、信息亭、小区短播,以及公交车、出租车、火车和飞机的电子屏幕,甚至奥运多语言终端等等来享受北京的多语言服务。”高佳卿说。所有这些接入渠道,都将为奥运多语言服务提供支持。 

据高佳卿介绍,为了实现北京奥申委对国际奥委会的庄严承诺,20027月,“多语言智能信息服务网络系统”就列入了北京奥运行动规划。从2002年到现在,国家“863”计划连续多年支持了“奥运多语言智能信息服务系统关键技术及示范系统”和“奥运综合信息服务关键技术及核心平台”等研究。“多语种实时互译系统研究”等课题被列入国家科技攻关计划。“奥运多语言信息服务系统多语言智能信息处理平台及典型应用示范系统研究”等项目也成为北京市科技计划的内容之一。“总之,‘多语言技术及应用服务’得到了国家的大力支持。”高佳卿说。

     在过硬的技术和深入的沟通下,20067月,国际奥委会终于批准北京第29届奥运会提供多语言服务类别,同意北京奥组委选择合适的服务供应商。高佳卿回忆说,当年12月,首信就将多语言服务规划、服务平台建设、服务方式以及相应的解决方案提交到了北京奥组委。在经过紧张的谈判后,今年5月,首信与北京奥组委最终签订正式协议,成为奥运多语言服务供应商。 

据记者了解,2008年北京奥运会将有200多个国家和地区参赛。届时,来自世界各国的数万名运动员、体育界人士、新闻记者,以及数以百万计的观众都将享受到奥运信息与城市信息的多语言服务。高佳卿告诉《科学时报》记者,“这在奥运史上是第一次,其产生的影响将是巨大的。”

 

比“阿波罗登月”更难 

“在语音识别、语音翻译等技术刚刚出现的时候,有人认为,其困难程度无论怎样也不会比‘阿波罗登月’更高。事实却证明,自动翻译是比‘阿波罗登月’困难得多的事情。”中国科学院自动化研究所研究员、国家863计划信息领域专家组专家徐波告诉《科学时报》记者。 

据徐波介绍,1945年,当时信息论的先驱Warren Weaver提出,语言的翻译过程可以抽象成编码和解码过程,这种思想其实就是机器翻译的基石。Warren Weaver同时还提出了机器翻译的可计算性。 

计算技术的发展虽然为机器代替人从事翻译工作、最终消除人类交流障碍打开了希望之门,然而,50年自动翻译的实践却证明,其可计算性同样非常困难。针对机器翻译的现状,有人甚至挖苦地说:“MT,不是Machine Translation(机器翻译)的缩写,而是Mad Translation(疯狂翻译)的缩写。”“这虽然有些极端,但真实地道出了实现自动翻译有多难。”徐波说。 

“就多语言服务技术来说,主要包括3个方面:语音识别、机器翻译和语音合成。”高佳卿告诉《科学时报》记者,“我们面f的是一项在国内外都没有先例的重大高新技术研究与应用项目,涉及的服务内容广,服务用户量大,且国际化服务的要求高,因此需要解决许多层次的技术难题和服务用户过程中的体验问题。” 

据介绍,奥运多语言信息服务平台从整体规划上分为3个阶段:其中,从2002年到2004年,主要是进行需求分析、体系结构、接口规范、核心技术的进一步研发等工作。从2005年到2006年,推出示范系统,开展大量应用实验。2007年到2008年,则在核心技术成果和一定规模的应用实验基础上集成实现了“奥运多语言信息服务平台”。 

“在实施过程中,我们面临的技术困难主要来自5个方面。”高佳卿说。首先是语种多,除汉语外,还包括英语、法语、西班牙语等10种语言。此外,信息来源广、种类繁杂。奥运信息和城市信息加起来共有25个大类78个小类。而且,在信息量大的同时,要求的处理时间还很短。另外,访问量集中。奥运期间将有700万到1000万人次的观众。最后,还要求多种发布方式,并需要语音和文字信息同步发布。 

谈及最终的技术标准,高佳卿告诉《科学时报》记者,首信与奥组委签订的协议中是这样要求的,在服务性能指标方面,要求奥运多语言信息服务系统要能支持大量并发访问,具有网络负载均衡能力。多语言综合信息库并发访问数至少要达到200,综合信息服务频道并发访问数至少要达到1000。多语言服务系统对操作用户的平均响应时间不能超过3秒。最重要的是,机器翻译的指标在满分100分的情况下,忠实度不能低于60,流利度不能低于60,翻译速度不能低于1000/分钟。 

“最近,奥运多语言服务平台刚刚参加完测试赛的试运行,一切表现良好。”高佳卿说,“这为明年61日前整个奥运多语言服务系统全面投入正常运行奠定了良好的基础。”

 

以中文为核心的语言产业 

“奥运会只是多语言服务的起点。”徐波说。对此,高佳卿也十分认同。 

高佳卿告诉记者,2008年北京奥运会后,奥运综合信息服务系统还将得到进一步推广和利用,向北京的企业、市民和国内外来访者提供住宿、餐饮、购物、旅游、气象、交通等各类社会服务,提高北京市的综合信息服务水平,提升北京作为国际化大都市的整体形象。此外,该系统还可以应用在上海2010年世博会之类的大型国际体育文化商业交流活动中,成为各省市的日常对外交流平台。 

据介绍,奥运会之后,首信将围绕国内外旅游者和北京市民的需求,继续做好本地用户的信息服务和城市多语言服务。届时,本地居民和国内外来访者可以通过以下4类传播渠道实现信息共享:政府网站、商业网站、多种信息化终端和社区服务平台。

     “中文信息处理将是中国多语言服务技术的核心。”徐波认为。据记者了解,在“十一五”863中,除了专题支持外,还专门设立了“中文为核心的多语言处理技术”重点项目,并首批启动。不过,“重点是要开发一些‘雪中送炭’的应用,在这个领域树立标杆和示范,这对推动多语言服务技术和产业的发展将会大有裨益。”徐波说。

 

附件: