在北京市科委支持下,自动化所承担了北京市科技计划企业、高等院校和科研院所科普场馆建设项目“中国科学院自动化研究所智能科学与技术科普展厅建设”课题(编号Z121110001912019)。本项目以“智能科学与技术”作为科学普及的切入点,全面展示我国自动化学科和智能科学学科的历史进程与发展趋势,引领大众了解智能技术最新研究进展,提升对未来智能生活的认识,发现和培养具有宽口径知识、较强适应能力和现代科学创新意识的技术人才。
“智能科学与技术”是当前自动化学科和智能学科交叉融合产生的新方向。智能科学与技术研究的覆盖面广,涉及机器人技术、新一代网络计算智能系统、微机电系统(MEMS)、新一代人机交互技术等,与国民经济、工业生产及日常生活密切相关。经过近三十年的发展,智能技术及其应用已经成为IT行业创新的重要内容,其广泛的应用前景日趋明显,如智能机器人、智能化机器、智能化电器、智能化楼宇、智能化社区、智能化物流等等,对人类生活的方方面面产生了重要的影响。智能科学与技术是自动化工程、机电工程、计算机工程等工程学科的核心内容,具有很强的工程性和实践性,同时融合了机械、电子、传感器、计算机软硬件、人工智能、智能系统集成等众多先进技术,充分体现了当代信息技术多个领域的先进技术。
经过一年的建设,自动化所智能科学与技术科普展厅将于近日正式对外开放。展厅坐落于北京市海淀区中关村东路95号的中科院自动化所院内,主要展示空间集中于智能化大厦一层,报告厅位于自动化大厦13层。
智能科学与技术科普展厅总面积为800余平米,共包含六个展室:
1)成果展示厅:以展板形式展示国内自动化和智能学科的发展历史,以及部分珍贵的文献资料和成果实物;
2)前沿技术厅:以展板形式展望智能科学与技术领域未来的发展趋势,以及未来智能生活的畅想;
3)交互体验厅:包括四项常设智能化互动展品和多项临时展品,四项常设展品包括:
a.集成生物特征识别功能的智慧机器人:将生物特征识别技术、语音识别技术、语音合成技术、机器人技术结合的智能交互机器人;
b.基于云计算的移动终端语音翻译:提供10台的装有中英文口语翻译系统——紫冬口译的移动终端,以及支撑远程翻译服务的云平台;
c.组合式自主行驶微缩智能车:提供5台按照1:10比例开发的微缩智能车,以及61平米的模拟交通场景;
d.全景拍摄系统和虚拟漫游:完成北京14个景点和无锡10个景点的三维全景展示系统,包括环境中地点分布图及各地点的三维全景图或全景视频展示。
4)弧幕演示厅:120平米能够容纳30名观众的120°弧幕影院,可展示多媒体形式的智能科学与技术领域最新成果宣传和技术概念;
5)科普报告厅:220平米能够容纳220名观众的科普报告厅;
6)网络展示厅:在新浪微博上开设“中国科学院自动化研究所”账号,建立展馆的线上交互体系,扩大展馆的认知度和宣传覆盖面,并根据网络反馈改善展品功能。
敬请关注我们的网站(www.ia.cas.cn)和微博(@中国科学院自动化研究所),展厅开放信息将及时发布。团体观众请联系张老师(010-82544556)协调参观时间。
展项介绍一:集成生物特征识别功能的智慧机器人
人脸、指纹等生物特征识别技术是信息技术、人工智能、模式识别、光电工程等科学领域的前沿方向,同时也是保障国家和公共安全的战略高技术、电子信息产业新的增长点。目前我国大部分民众对信息安全领域的尖端技术——生物特征识别知之甚少,因此开展生物识别技术相关科普展项活动具备重要意义。本项目开发了一套国际领先、具有自主知识产权的、集成人脸、指纹图像获取与识别的多模态生物特征识别演示系统,采取机器人互动交互以及多媒体人机交互的生动形式,让普通老百姓通过亲身体验来了解人体有哪些主要的生物特征信息,计算机是怎样利用这些生物特征进行自动身份识别的,生物特征识别能解决哪些安全问题,相对于其他身份识别方式有什么特点和优点,以及目前我国自主知识产权的生物特征识别技术已经发展到了什么样的水平。
集成生物特征识别功能的智慧机器人以仿人形机器人作为载体,集成生物特征识别技术,通过注册将观众的脸像、指纹等个人生物特征与录入的个人信息相关联,之后观众与机器人交互时,机器人可以认出已经注册的观众,并利用注册时录入的观众个人信息进行个性化的人机交互,机器人具有语音交互功能,观众可以用手持麦克与其对话,对话内容为注册时录入的个人爱好,且在交互过程中以动作配合。
生物特征识别技术应用于机器人载体上,体现出以下三个方面的特点:
1)机器人参与的生物特征采集模式。
2)基于身份识别结果的个性化问候及娱乐互动。
3)机器人控制与多媒体形式融合的人机互动。
本展项主要包括生物识别和机器人两大部分:
1)机器人:包括机器人本体、控制系统、软件系统等。
2)生物识别:脸部、指纹等多模态生物特征的传感器和识别算法。
智慧机器人的外观效果图如图所示。生物识别部分为注册端,机器人部分为识别端,注册端与识别端通过无线网络互联,观众在注册端登记个人信息,录入个人生物特征,然后就可以到识别端与机器人进行交互,机器人通过指纹或人脸特征识别观众后,首先对观众致以问候,然后根据观众的兴趣爱好进行语音交互。
展项完成了机器人骨架和外壳的制作,在机器人本体上安装了电气控制系统,实现对移动底盘、机械手臂等的驱动功能,安装无线麦克以及音响系统实现音频IO功能,并使用CAN总线将电气控制系统与主控计算机相连接,使机器人控制与语音交互功能结合为一个整体。下图为机器人内部骨架示意图。
下图为机器人外壳设计效果
在注册端实现了图形用户界面,能够引导观众逐步完成个人信息的注册,并可以在注册端验证识别效果,指纹识别模块识别正确率达到99%,响应时间小于1秒,人脸识别模块识别正确率达到90%,响应时间小于2秒,生物特征识别性能达到设计要求。下图为注册端软件指纹注册界面效果。
交互过程分为两部分:首先是用户注册,分别输入人脸和指纹信息,选择自己喜欢的游戏项目,例如唐诗、美食、体育、音乐等;然后是用户识别阶段,用户可以注册人脸或者指纹信息实现准确身份识别,机器人通过观众的身份和喜好提供个性化的服务,包括对话、唱歌、背唐诗、讲笑话、信息查询等。
参与互动的观众需要完成两大步骤。
第一步是“让机器人记住你”。观众在注册端的生物特征识别系统前录入自己的生物特征。具体操作流程是:
1、点击“注册”按钮,弹出信息录入界面。系统为观众生成吉祥物角色(如“晶晶”);观众自主选择个性化属性,包括出生年月日及爱好。录入完成后,点击“确定”按钮,进入注册界面。
2、在注册界面的左下角点击“注册人脸”按钮,注视系统界面2~5秒,便可完成注册。此时系统将给出语音提示:“**,很高兴认识你”。
3、观众也可以点击“注册指纹”按钮,按照系统提示注册指纹。
第二步是“让机器人跟你交流”。观众走到机器人面前,机器人将认出你是谁,并根据你的爱好跟你语音交流互动。具体流程如下:
1、当观众站在机器人面前的时候或观众直接接触机器人身体上的指纹识别模块时,机器人认出观众则向观众致以问候,同时根据注册时录入的个性属性说出观众的生日、爱好等信息。
2、问候完毕时,进入语音互动环节,观众用话筒根据机器人胸前的屏幕提示,与机器人进行语音交互。
通过本科普展项,普通老百姓可以与生物特征识别技术和机器人技术进行零距离接触,了解生物特征识别的技术原理,初步认识到生物特征识别的广阔应用前景,同时也可以了解到智能服务和娱乐型机器人的科学原理,以及自动语音识别与合成技术的切身体验,从而对生物特征识别技术和机器人技术不再陌生,让科技智慧的种子撒播到民众心中。
展项介绍二:基于云计算的移动终端语音翻译
圣经里有个关于“通天塔”的故事:据说远古时代的人类是讲着同一语言的。他们决心造一座能直耸天际的巨塔,企盼能登上天堂。随着通天塔越造越高,众神开始感到恐惧,于是三番四次制造天灾摧毁巨塔,人类却毫不气馁,继续着与神的抗争,众神最后釜底抽薪,令所有人类各自说着不同的语言,人类无法沟通,通天塔最终半途而废。
为了实现全球范围内跨国跨语种交流,人们一直在寻找克服语言障碍的途径:先是翻译,然后是世界语,再到计算机自动翻译。从1945年信息论先驱Warren Weaver提出机器翻译的可计算性,计算机自动翻译之路已经走了60多年。作为智能计算机研究的主要方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注,实现无障碍的跨语言沟通也一直是机器翻译追求的目标。但是,从理论上证明机器翻译完全可计算仍然是一件并不容易的事情。实现语音识别曾一度被喻为“登陆月球”,而语音翻译则被人们喻为“登陆火星”,可见口语翻译的难度之大。
国际上对口语翻译较早,进行研究的主要是德国Verbmobil开发计划和国际口语翻译先进研究组织(International consortium for Steech Translation Advanced Research,C-STAR),并于2010年发展为国际口语翻译先进研究联盟(Universal Speech Traslation Advanced Research Consortium ,简称U-STAR)。我国科学家在上世纪90年代中期介入这个领域,一直保持着雄厚的研究和技术实力。即使在过去十年,语音研究进入全球研究低潮期时,中国科学院自动化研究所也仍然保留了一支适度规模的队伍,为今天“紫冬口译”的诞生奠定了坚实的人才和技术基础。
基于云计算的移动终端语音翻译平台具有以下特点:
1、可靠性和扩展性特性支持;可根据业务需求灵活配置计算能力,可动态增减计算节点;多入口服务,提供持续在线的服务保障;多点多入口和单点多入口;服务故障容错,节点宕机不影响总体服务;可在线动态更新升级;
2、高准确度的语音识别:基于海量语音库的高精度声学建模;多种通道、广泛客户端的真实采样;数百G的通用领域语言建模;针对新闻和口语的特殊优化;
3、高质量的辅助翻译:数千万句对的双语建模;对旅游、日常对话等口语交流领域的特别优化
4、语音云平台支持多种负载能力的应用场景:最小化情况,可以单机部署;多机部署,自动负载均衡;支持上百计算节点的部署规模;
5、支持多种平台的操作系统:服务端支持Windows Server系列 / Linux系列;提供C++、Java等语言API调用接口;客户端支持iOS、Android操作系统,提供不同功能级别的封装接口。
“紫冬口译”移动终端口语翻译系统是运行在iPhone/Android等智能手机终端上的App应用,通过3G/Wifi网络连接云端的口语翻译服务,云端后台部署计算集群,提供口语语音识别、机器翻译和TTS服务。其中语音云平台的架构如下图所示。
口语翻译系统的框架流程图如下。
系统可以安装运行在安卓、iOS等操作系统的智能手机或平板电脑上,使用者通过3G或者无线局域网访问口语翻译的语音云平台,能够随时随地获得在线翻译服务。用户在手机上打开口语翻译软件,对着手机说出想翻译的话(比如是一句中文),用户的语音通过网络送到后台云计算中心,先进行口语语音识别,得到用户所说的文字,然后用海量语料训练的翻译系统进行翻译,得到目标语言(比如英文)的翻译结果,最后通过文本转语音模块,将目标语言的语音信息连同之前的识别和翻译文本一同发回到用户手机上,用户将在手机上看到和听到刚才自己说的那句话翻译之后的结果。在强大的云计算集群和高速网络连接的支持下,整个翻译交互过程在数秒钟之内就能完成,识别和翻译结果均能达到可用的水平,为用户带来了非常便捷和高效的使用体验。随着用户使用频率的增加,云计算后台可逐步改进和完善,能够为用户提供更加个性化的和更准确的翻译服务。
翻译平台系统性能指标如下:①复杂声学环境下的鲁棒语音识别能力:具备在人声嘈杂等条件下的语音识别能力;②口语化的语音识别和机器翻译能力:对发音清晰日常用句语音识别率和翻译准确率拟达到90%以上;③大量用户实时并发服务能力:搭建云计算平台,满足大量用户实时并发服务。
本课题在展厅中搭建了示范演示系统,并配置了10台演示终端。演示系统在实现中英文口语精准文本化的同时,更同步完成翻译和播读。在使用中,用户仅需对着手机说出所需翻译的中英文句子,即可得到语音及文本双重翻译结果,即使中英文零基础的用户也能通过软件实现中英文口语交流。系统在语音翻译功能之外,还添加了在线互动及离线翻译功能,满足用户学习交流及在非网络环境下的翻译需求,同时支持连续语音输入下的短信、邮件及微博的一步发送,适用于移动互联网的创新型综合语音类翻译。
演示系统集合了云计算、语音识别、机器翻译、语音合成、人工智能等技术,而该系统本身又有可操控性、直观性、生动性等特点,且其应用面向生活,因此很适合进行成果科普化,使高深前沿的人工智能技术更容易走进大众的视野。
展项介绍三:组合式自主行驶微缩智能车
智能车通常采用视觉、激光雷达、超声波雷达、GPS等多种车载传感器来感知环境,并根据所获得的感知信息控制车辆的方向和速度,从而实现自主、安全、可靠地在特定环境下行驶的功能。缩微智能车是智能车的一个缩小版本,它运用计算机视觉、人工智能、自动控制以及机械传动等不同模块,组合实现了缩微智能车在缩微交通环境下安全稳定地自主行驶的功能,是一个理想的智能车研究平台。由于其是真车的缩小版本,其行驶的交通环境也是真实交通环境的缩小版,因此其在克服诸如投入高,实验不安全性以及调试周期长等真车所面临的一系列难题上有着极大的优势。同样由于其体积小,组装起来相对容易,所以也是为未来智能交通技术做科普的理想平台。
展厅展出的缩微智能车V2.0,具有以下特点:基于计算机视觉的环境感知、基于人工智能技术的智能控制、融合多传感器进行综合决策控制以及软硬件的模块化设计。
1.基于计算机视觉的环境感知
环境感知是车辆自主决策控制的基础,对于缩微智能车V2.0来说,三个不同位置的摄像头完成了不同的功能,左右摄像头完成了道路情况的初探,上方摄像头完成远方交通标志及交通信号的捕获。当三个摄像头同步完成信息捕获后,将捕获的信息分别传送至相应的处理模块,不同模块将处理信息打包发给中心控制程序进行下一步处理。在这个阶段,我们利用Canny改进算法进行边缘检测、Hough变换检测直线、设计车道线跟踪算法以及交通标志和交通信号识别。
车道线检测:小车识别车道线的第一步就是找到车道线的形状和位置,由于摄像头本身受环境光照,拍摄角度等参数的影响,所以不能保证小车看到的车道线就和人眼看到的一样。在这种情况下,设计一个很好的车道线检测算法就显得尤为重要。我们的车道线检测算法主要分为两个模块:Canny改进算法进行边缘检测和Hough变换检测直线。
Canny算法是一种常用的边缘检测算法,其由加州伯克利大学的教授J.Canny提出。展项设计过程中采用了改进的Canny算法,引入了投票机制,可以在设计提取边缘点的阈值时做到阈值的自适应性,实验表明这可以明显改善边缘的提取,为后续Hough变换检测车道线提供好的保证。
Hough变换是从二维空间到参数空间的一种映射,对于二维空间中在同一条直线上的点而言其映射到参数空间中对应一族相交于同一点的线,而参数空间中相交于同一点的线则对应二维空间中共线的点。利用Hough变换寻找直线,就是利用上述性质,寻找二维空间中共线的一些离散点。需要注意的是,在实际应用中参数空间常常选用极坐标表示形式。其步骤如下:
S1:输入二值化的边缘检测图像;
S2:将图像分为个区域,并为每个区域分配一个累加器;
S3:分别计算每个区域中点对应参数空间中的、,对应的累加器值加1。
S4:对于满足累加器值大于20的(即至少找出同一条直线上的20个点)、予以保留,并在对应的二维空间中拟合生成一条直线。
车道线跟踪算法与交通信号识别:车道线跟踪是控制小车正常行驶的基本要求,我们采用最近距离法选取小车车道线,然后计算出虚拟中线,始终让小车坐标系的坐标原点和虚拟中线保持在一个较小的误差范围内就是我们车道线跟踪的控制策略。
按交通信号指示通行是小车在道路上行驶必须遵守的规则,在交通信号识别上算法流程如下:
S1:对输入的图像进行HSV空间变换;
S2:进行交通信号检测;
S3:交通信号分类识别;
S4:输出检测结果。
2.基于人工智能技术的智能控制
在这一个模块,课题组将不同传感器捕获并处理后的感知数据送到我们构建的控制规则库里进行处理,这些控制规则是人工抽取的,代表了人工智能的一个实现方法。实验表明,其具有非常好的控制能力。本展品所采用的控制规则如下图。
3. 融合多传感器进行综合决策控制
想让车辆安全稳定地行驶,有足够的全面的实时环境信息是非常有必要的,它们为智能控制提供了数据基础。缩微智能车V2.0里用了三个摄像头放在车辆的不同位置,以及一个超声波雷达传感器作为感知环境信息的窗口,并在控制规则库里很好地设计了多传感器融合的规则:即协同利用左右摄像头捕获的障碍物形状信息及超声波波雷达传感器捕获的障碍物距离信息。具体流程如下:
S1:读取左右摄像头的图像,对其进行HSV空间变换以及形态学处理;
S2:对变换处理后的图像进行轮廓检测;
S3:对检测到轮廓的区域按设定的阈值进行区域判定,输出有无障碍物信息;
S4:结合图相处理的结果与超声波波雷达检测的信息,输出更加准确的障碍物信息。
4.软硬件的模块化设计
软硬件的模块化设计是实现科普及方便科研的非常好的一个设计思路,缩微智能车V2.0无论从软件还是硬件的设计上都遵循模块化设计的原则:道路边缘检测的算法和直线检测的方法之间是相互独立的;障碍物形状判断与障碍物距离判断的模块是独立的;交通标志、交通信号灯与障碍物、车道线的方法实现间也是独立的;控制决策模块和控制执行模块间是相互独立的。如果研究人员想在这个缩微的平台上实现某个模块的改进,其完全不必要对整个软件硬件体系有很多的了解和更改,只需专注于他想改进的模块即可。硬件也是如此,不同传感器之间相对独立,随着科研工作的推进,会有越来越多的传感器加在小车上,我们也为这些传感器提供了6个USB接口。
基于以上技术特点的缩微智能车V2.0具有以下主要功能:
1.交通信号识别:车辆在行驶过程中,需要遵守一定的交通规则,这样才可以保证车辆安全快速地在道路上行驶。交通信号是主要的交通元素,行驶车辆按照交通信号指示行驶,也是交通法最基本的规定。因此,对于无人车来说,其要遵守一定的交通规则,则必须具有识别道路上的交通信号的功能,这里的交通信号包含了交通信号灯和交通指示标志。缩微智能车V2.0具有很好的交通信号识别能力。
2.障碍物检测:车辆在道路上行驶,尤其是在非结构化道路上行驶的时候,常常会遇到不同形状,不同类别的障碍物。障碍物的存在具有非常大的随机性,如横穿马路的行人,如树上飘落的树枝等等。缩微智能车V2.0具备很强的障碍物检测能力,保证了车辆在道路上的安全行驶。
3.车道线跟踪:高速公路和城区道路可以分别定义为结构化道路和非结构化道路。车辆在结构化或半结构化的道路上行驶,除非在超车,换道行驶或是避障的情况下需要变道行,否则需要尽量遵循保持各自车道的原则。保持在各自车道行驶也是现代交通的高明之处,其可以保证车流安全,快速,高效地驶往目的地。缩微智能车V2.0具备很好的车道线跟踪能力,满足现代交通的基本要求。
4.超车:车辆在道路上行驶,经常会遇到前车速度很慢,而左道又闲置无车的情况。这种情况第一不利于道路的合理利用,第二延长了车辆到达目的地的时间。为此,合理而适时的超车行为可以有效地改善以上两种情况。缩微智能车V2.0拥有规范的超车功能。
展项介绍四:全景拍摄系统和虚拟漫游
全景拍摄所得到的图像和视频现场真实感强,以专业方式拍摄的图片可以高度还原实际场景的光影氛围与物体材质感,因此在浏览时可使观察者获得强烈的现场感和真实感。而电脑播放要求配置较低。常规的家用电脑即可播放,无需高端图形工作站。此外,全景拍摄采集便捷,可以在发布过程中根据需求灵活控制数据量的大小,更适合网络传播。在应用领域方面,既可广泛应用于房地产三维电子楼书设计、宾馆酒店展示、旅游景点展示、城市景观展现,也可以应用于电子商务网上的虚拟展厅制作、网上虚拟博物馆的展示、政府虚拟城市项目建设以及包括建筑设计和施工单位在内的各大中型企业的企业形象宣传和项目记录与汇报等方面。以网络多媒体技术载体的全景技术制作虚拟漫游系统,具有复合的计算机技术含量,是目前计算机行业最热点的应用领域之一。
本展品包括采集三维全景展示所需数据、虚拟漫游系统开发,以及全景知识内容介绍和普及几大部分。展品设计目标为包括不少于20个拍摄点的景点分布图及各景点的三维全景图或全景视频展示,使用特点为画面中的地图区域可以用鼠标左键按下,然后上下左右移动鼠标来显示地图的不同区域,也可在触摸屏上用手或触摸笔接触屏幕,然后移动来达到相同的效果。展品具体功能包括:①点选地图中散落着写有不同名字的蓝色标签,根据标签左下角的图案选择景点的三维展示方式(全景图或全景视频);②选中某个标签后,再次鼠标左键点击该标签,进入景点介绍信息对话框;③点击显示窗口的非按钮区域,然后在不松开鼠标下上下左右移动鼠标,来转动场景以从不同的角度观看全景。
1、全景拍摄
全景拍摄由小组成员分别对北京14个景点(奥林匹克森林公园、北京国际创意设计苑、国子监40号、嘉诚印象、航星科技园、圣唐古驿、东雍创业谷、方家胡同46号、人民美术文化园、亮点55创意产业园、方家胡同、国子监胡同、箭厂胡同、五道营胡同)、无锡10个景点(南禅寺、江南水弄堂、阳春桥、中国丝业博物馆、祝大椿故居、窑群遗址博物馆、水仙道院、清明桥、伯渎桥、环城古运河)、内蒙(赛罕区政府办公大厅)等地的25个景点进行数据采集,后期将其整理,分别以全景图片和全景视频进行存储,用于虚拟漫游系统开发。
2、全景虚拟漫游系统开发
全景虚拟漫游系统主要包括全景技术介绍、虚拟漫游以及音乐播放器三个模块。
①全景技术介绍:点击“全景技术介绍按钮”,弹出全景技术介绍对话框,通过图片和文字,来介绍全景技术原理、虚拟漫游交互方式和全景技术的应用;
②虚拟漫游:用户点击“虚拟漫游系统”进入,它是以电子地图覆盖所拍摄的景点,以全景图片和全景视频两种方式来展现景点,和用户之间可以进行互动展示,系统中已经实现鼠标、触摸笔或手指与触摸屏之间的交互,用户点击地图中的标签,可以查看到相关的文字介绍,并可以选择对话框下方的图片,进入相应的三维全景图片或视频展示,可以通过界面中的控制面板或者触摸屏进行交互
③音乐播放器:在进行虚拟漫游体验的同时,可以点击打开音乐播放器,配合不同风格的音乐,可以给用户更加舒适悠扬的感受,在将来的工作中,可以加入音频的导游,会使得虚拟漫游更加惟妙惟肖。
公众通过这种易于理解、接受和参与的互动体验,可对全景技术有更加感性的认识及更深刻的理解,达到普及科学技术知识的目的。