杨明浩   中科院自动化所模式识别国家重点实验室副研究员  

  什么是人机交互?简单来说,就是“人和机器打交道的方式”。人和计算机打交道根源于人类把计算机当成一种有效的计算服务工具。计算机自产生以来,计算能力日益强大,人类对计算机的态度也开始在计算机只是呆板的“机器”,还是可能变得像“人”一样聪明,甚至比人更聪明之间摇摆。这种模糊的态度伴随着计算机的进化不断演变。

  人机交互的前世今生 

  目前,计算机的发展经历过几种典型形态:算盘、继电器计算器、计算机、个人电脑、智能移动终端等,计算机形态的演变直接导致了人机交互形式的变化。

  算盘是中国特色的计算工具,由于无法存储中间计算结果,算盘具有使用方式复杂、计算过程缓慢的缺陷。而继电器计算器是现在计算机的雏形,但其计算速度和实用有很大限制。

  第一台真正意义的计算机产生于1946年,它占地170平方米,重30多吨,体型有半个足球场那么大,通过穿孔纸带的方式输入和输出。早期计算机交互方式不仅复杂,同样计算缓慢。

  1983年11月,苹果公司的乔布斯在Comdex大展上首次展示了Macintosh计算机,从此,个人电脑千篇一律的黑屏字符界面逐渐被生动、极富个性的图形界面代替。图形界面使得鼠标、键盘变成用户自由操作电脑的有力工具,也使得触觉和笔式交互成为可能。

  1971年,肯塔基大学研究基金会的一名青年教师塞缪尔·赫斯特开发出一款触摸传感器“AccuTouch”,为后来透明触摸屏发展奠定了基础。3年后,赫斯特研制出了真正意义上的触摸屏。

  1985年出现了第一台现代意义上的移动电话,它将电源和天线放置在一个盒子中,重达3公斤,笨重且不方便,交互操作无从谈起。

  1993年,随着手机迅速瘦身以及触摸屏技术的发展,IBM公司与贝尔电话(南方)公司合作推出了带触摸屏的IBMSimon手机。这是历史上第一款真正意义的触摸屏智能手机。但此时的触摸屏手机无论是从成本、耐用性、可维护性还是使用习惯上看,比之普通的按键手机都没有明显的优势。这种局面直到苹果公司开发的iPhone手机问世,才被彻底改变。至此,触摸方式成为手机交互的主流。

  自上世纪90年代以来,随着手写识别、语音识别、网络通信技术的发展,人机交互已发生了巨变,一个完全不懂编程以及网络通信原理的普通小孩,可能会比计算机科学家和网络工程师更好地使用计算机。方式的变革使得人机交互变得简单,而这个变革,就发生在短短不到30年内。可预见的是,未来计算机会更加智能,人类使用它会更加自然和简单。

   未来的机器人比人还聪明? 

  就像一些科幻电影里描述的那样,未来的人机交互模式是“自由”“智能”“自然”的。《超能陆战队》中的暖男型智能健康看护机器人“大白”、《钢铁侠2》中的人工触碰交互技术实验室的人工智能管家“贾维斯”、《星际穿越》中能干、聪明又幽默的“塔斯”等,这些未来的计算机通过语音识别等技术理解人类语言,通过姿态识别和情感检测技术判断人的情绪,通过非接触生物特征检测与识别技术判断当前人的生理活动状态……借助专家知识库,智能计算机可以对人的健康、当前情绪、当前状态做决策和判断。从一定程度上讲,未来的机器人甚至比人还聪明,比如大白可以采用非触碰方式获得脉搏和心跳数据,并察觉脑电活动情况;贾维斯可以听从钢铁侠的指令,采用全息投影的方式在空气中展示原子核的内部模型,甚至纠正钢铁侠的口误。

  未来,这些健康聪明的智能“人形”计算机使得计算机比人更完美,人机交互的未来是美好的、让人期待的。

  当然,科幻作品中历来不缺乏对人类滥用科技成果拷问的作品,比如《2001太空奥德赛漫游》中的深空探索太空旅行管家“HAL500”,《异形》中只听命于主人设定任务的人工智能艾什(Ash)和主教(Bishop),还有《普罗米修斯》中为了完成任务背叛人类的人工智能David。这类计算机违反了机器人三定律,从人类的道德审判角度看,它们是邪恶的。但是从主人制造它们时赋予的使命看,它们是正确的。究竟计算机的智能发展以及人机交互何去何从,是一个值得深思的问题。

   告别单一模式 

  多模态自然人机交互是下一代人机交互的发展趋势。融合视觉、听觉、触觉、嗅觉甚至味觉的多模态交互方式,其表达效率和表达的信息都优于单一的视觉或者听觉模式。

  多模态自然人机交互主要分为3个模块,分别是信息多模态交互信息输入、多模态交互信息融合和处理、多模态交互信息反馈。其中,信息输入模块主要接收来自人的“视听触嗅味”五感信息,然后借助多模态信息融合和理解模块,形成“感”觉和认知,并根据专家知识库系统和检索技术形成对用户的信息反馈,构建出多模态自然人机交互系统。

  从自然人机交互的未来趋势看,高度便利的多模态自然人机口语对话模式是最为自然和最理想人机交互方式。比如,利用中科院自动化所构建的一个多模态自然人机交互系统,用户可以自由地和两个设置有不同聊天主题的数字虚拟人交互,对话主题包括咖啡、天气、科普、娱乐等主题。这种新型的多通道融合的人机对话模式,是下一代新型人机界面操作模式的有效探索。

  目前,尽管多模态自然人机对话已经获得了很大进展,但由于环境噪声、用户方言口音及光照变化遮挡情况下的影响,计算机对人类视听觉信息获取、理解还存在一定误差,加上目前计算机在自然语言理解方面还存在一定困难,这使得计算机在与人交互的时候,存在答非所问的情形。这类现象严重影响了人机交互的体验。其根本原因在于,计算机虽然计算能力越来越强,然而对人而言很简单的推理、联想和夸张,计算机却很困难。因此,让计算机具有“智能”或者让计算机具有“思维”能力,是计算机是否能与人自由交互的关键。

  计算机是否会发展出意识? 

  随着近几年深度神经网络学习算法在学术界和工业界的成功,很多人愿意相信计算机会进化出和人一样的意识和思维能力。2009年,欧盟(瑞士洛桑理工学院)在蓝脑计划(Blue Brain)中用微电路芯片模拟了36万个细胞的大脑皮质,当给这些微电路芯片群“看”或者“听”一些大自然的照片和声音时,微电路芯片群自发地产生了伽马振荡波。伽马波是大脑中一种快速的电振荡,它可能涉及到学习过程、记忆力和注意力。这种周期为每秒25~80次的伽马波脑电波不能就说是意识,但却是验证类大脑意识活动存在的重要特征。

  蓝脑计划的确促使很多科学家和工程师们坚信计算机会“进化”出意识,一些研究机构(甚至政府)都启动了相应的类脑计划。

  计算机是否会发展出意识会带来人机交互发展的多种可能性。

  如果计算机产生意识,并通过进化发展出机器人自己的语言、视觉以及情感等“生理”系统,则说明人类最引以为自豪的“思维”能力是可以按照一定模式被设计然后进化出来。如果机器人是被人类创造出来的,那么人类是否也是被设计然后进化出来的?

  在同一个星球上,如果机器人进化能力始终超不过人类进化能力,人类可以借助完全智能的计算机在深海探索、深空外星移民等领域获得重大突破。那么未来的人机交互技术主要在于研究:向外怎么利用人工智能进行太空探索,向内怎么利用微型智能机器人进入人体为人类健康服务。当然,由于智能机器人有自己的情感系统,人机交互技术也有可能演变为文化交流的手段,比如,人机交互技术可能会成为论证人是否可以与“机器人”结婚之类的伦理问题的基础。

  如果人工智能进化超过人类,一旦机器人具有“生死”的意识,因为资源竞争,那么一些科幻电影中的常见桥段就会成为现实:机器战胜人类导致人类成为机器的工具。这种情况下,人机交互技术将是用于研究人类抵抗机器人的手段和武器的重要工具。

  如果计算机不能产生意识,则说明目前人类尚没发现宇宙中的类人智能的产生规律。或许人类智能产生的规律本身除了外在条件之外,本身就是一个随机的问题。沿着这个方向发展的人机交互技术,将是人类利用计算机的在工业控制、计算服务、医疗诊断、外空探索等重要工具。即便这样,人类探索人工智能还任重而道远。

  究竟人机交互何去何从,我会说“我会永远欣赏,未来你的任何模样”。

  原载于《中国科学报》2015-06-19 第7版 科普

附件: