【编者按】课题组是研究所及各个实验室的基本构成单元,犹如人体的细胞,担负着一项项具体的机能。近日,笔者以陌生的他者身份走进部分课题组,与部分组员、学生分享了他们的科研、学习经历,择其印象深刻的部分记录为文字,编为【走访·课题组】系列,与大家共享,为广大师生、职工提供一个相互了解的视窗。
【走访·课题组】之一——机器人视觉组
“人类视觉的主要功能是什么?或者更一般地讲,人类视觉系统主要是干什么的?我们人人都有两只眼,眼的用处是看东西。我们无时不刻在用眼看东西,但我们主要在看什么?看的目的是什么?或者说为什么要看?似乎这些问题简单得很少有人去思考,但事实上又很少有人能说清楚。”这便是机器人视觉课题组留给大家的思考。接下来的文字,是笔者对机器人视觉课题组的一个走访记录,带着这个问题,让我们一起了解课题组,了解课题组的研究人员。
“给计算机一双慧眼”
自动化大厦北厅的电梯在10层停下,顺着过道走到最北端,转进一间标为“1025”的办公室,三个青年博士正对着电脑敲打着键盘,桌上放着的一本《计算机视觉中的多视图几何》似乎在告诉笔者,这里便是机器人视觉课题组。
机器人视觉课题组隶属于自动化所模式识别国家重点实验室,现有研究员3人(胡占义、吴福朝、吴毅红)、副研究员2人(唐明、董秋雷)、助理研究员2人(高伟、申抒含)、博士研究生20余人,主要研究方向包括从图像重建三维场景、运动物体跟踪和机器人视觉导航等。
由于文科出生,对于理工类知识的欠缺,访谈不得不从课题组的名称开始提问。课题组成员向笔者介绍:“机器视觉也称计算机视觉,通俗地讲,就是使计算机具有‘看’的功能。计算机视觉就是以图像为输入,以模式识别技术为手段,对图像进行分析和理解的学科。最直观地讲,所谓计算机视觉就是用计算机来模拟人的视觉系统,实现人的视觉功能。”
“人与其它动物一样,视觉、听觉、触觉等感官功能的产生,首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论,人的视觉不管有多少用处,但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来,你会赶快回避;看到前面有激流,你不会冒然趟过去。事实上,为了适应外界环境和控制自身的运动,我们的视觉系统需要:能识别物体(可想而知,一个人连亲戚、同事、朋友都不认识,会怎样生活),能判断物体的运动以及确定物体的形状和方位(否则,无法抓取物体)。所以,物体识别、物体定位、物体三维形状恢复和运动分析,就构成了计算机视觉的主要研究内容。”看到笔者满脸的狐疑,课题组成员又做了进一步补充介绍。
“在理论研究上求深,在技术应用上求广”
在问及课题组的研究目标时,课题组组长胡占义说:“课题组的研究目标主要分为两个方面:一方面在计算机视觉理论方法上进行系统深入的研究,力争做出创新性和系统性成果;另一方面致力于研发一套基于图像的快速高精度三维自动重建系统,将三维计算机视觉推向应用”。
三维重建,就是指利用多幅数码图像来恢复物体深度的过程。我们知道,在拍照时照片中物体的深度信息都丢失了。从访谈中得知,胡占义研究员带领的机器视觉组长期以来从事的工作,就是如何给图像的每个像素赋予可靠的深度信息。这种具有深度信息的图像,是众多应用的共性基础技术,可以直接用来确定物体的位置、姿态,计算物体的体积和物体之间的距离,等等。从二维图像到含深度的三维图像,是质的飞跃。
胡占义研究员介绍说,我们给图像赋予可靠深度信息的过程,就像是建筑行业生产高质量砖的过程。高质量的砖可以用在不同的建筑,构建成“姿态各异”的优美形状。但砖绝不等于建筑,绝不能无限夸大。含深度信息的图像可以大大扩充视觉应用范围,但任何成功的应用,绝不仅仅是由于图像具有了深度信息。胡占义形象的说道:“我们主体上是生产‘合格砖’的人,我们致力于把‘砖’做精做好。”
据笔者了解,目前,课题组将中国古代建筑作为载体和研究对象,正在系统研究基于海量无序图像数据的大场景三维重建技术。其原因一方面在于中国古建筑结构复杂,重复纹理丰富,拍摄视点受限,遮挡严重,是测试三维重建技术水平的“典型重建对象”。另一方面在于中国古建筑多为木质结构较易损毁,亟待数字化保护,且这些建筑多分布于高山峻岭之中,相比于三维激光扫描仪等重建设备,基于图像的重建技术更加方便灵活。为此,课题组做了大量的数据采集工作,从课题组的门户网站上,我们可以方便共享到课题组采集的五台、峨眉、九华、普陀中国四大佛教名山和武当、青城两大道教名山的典型古建筑图像数据。如下图所示,图1为课题组开发的三维重建系统对五台山龙泉寺重建的结果,图2为课题组开发的三维重建系统对峨眉山金顶重建的结果。
(a) 用于五台山龙泉寺三维重建的照片示例
(b) 三维重建结果
图1 五台山龙泉寺重建结果
(a) 用于对峨眉山金顶三维重建的照片示例
(b) 三维重建结果
图2 峨眉山金顶重建结果
在和课题组成员交谈的过程中,高伟博士讲述了自己参与颐和园石舫三维重建的记忆:为了获取石舫的图像信息,我们跨越了2005年的暑寒两季。第一次去的时候是夏天去的,当时只拍到了石舫靠近堤岸的一面。为了获取另外一些信息,课题组成员于当年冬天又去了一次,在冰面上进行了另一面的图像采集,最终对石舫进行了完整的三维重建(如图3所示)。高伟还介绍说,类似这样出去拍摄采集原始图像的故事还很多,为了获得第一手图像资料,课题组成员常常会跋山涉水,也正是付出了汗水后的收获才更加深刻地体会到科研工作的甘甜。
(a) 用于对颐和园石舫进行三维重建的照片示例
(b)三维重建结果
图3 颐和园石舫重建结果
据进一步了解,机器人视觉组所开发的三维重建系统的特点与优势为:
全自动三维建模:从底层图像处理到生成最终的三维模型,全部自动实现,无需人工交互。
对图像拍摄无特殊限制:图像拍摄方式无特殊约束或限制,只需手持自由拍摄即可。
三维建模精度与激光扫描精度相当:三维重建精度小于3cm/100米,通过配备更高像素数量的相机和长焦镜头可以实现毫米级重建。
此外,课题组开发的三维重建技术也可用于无人机地形图的自动生成,无需POS或GPS等飞行数据,也无需任何稳定平台。图4为通过140幅宁夏金沙湾地区无人机图片自动生成的该地区三维地形图。由于本三维重建技术具有重建速度快、全自动的特点,因此特别适合于灾害评估,可以在灾害后为各个决策指挥部门提供第一手的三维地形地貌资料,从而有利于做出更加科学的决策。图5为汶川地震后利用400幅北川地区无人机图像自动生成的三维地形图。
图4 金沙湾地区三维地形图全局(上)与局部(下)
图5 北川地区三维地形图
据笔者了解,目前课题组已与国家文物局、国家遥感中心、国家天文台、芬兰Nokia研究院等开展广泛合作,相关技术已经在国防军事、文物保护、矿山安全、灾害评估等诸多领域得到了初步应用。
“我们在潜移默化中学会科研”
由于时间短促,未能对机器视觉课题组的全部研究内容进行深入了解,也未能和全部课题组成员进行深入沟通。课题组基于航拍图像的三维地形生成、航拍图像全景拼接等研究都已经取得了丰硕成果。访谈过程中,学生对老师发自内心的敬重留给了笔者颇深的印象。“胡老师每天早晨6点半到办公室,我们到办公室的时候,看到他去食堂吃早餐时,他已经工作了一个小时了。”即将博士毕业的刘鑫告诉我:“这是四年下来看到的,一年四季基本上没有节假日,周末都是在办公室里。”据课题组成员介绍,不光是胡占义老师这样,在同学们印象中,课题组的老师都是在用自己的勤快刻苦潜移默化地引导大家。
临近访谈结束,笔者又想起胡占义研究员的一篇题为《画虎成猫》的文章,里面有这样的文字记录:“画虎成猫,缺功夫也。研究不到位,缺功夫也。猫到虎,质之差别也。没有好啃的硬骨头,但只有啃下了硬骨头才叫真正啃下了骨头。聪明不足畏,贵在坚持,“几何之内无王道”。路人曰,猫与虎本不可区分也。答曰:虎就是虎,猫就是猫。群猫见虎,一哄而散也。”
严谨、求实,以自身的行为来为大家做表率,这应该正是一个课题组的灵魂所在吧!