711日,加州大学洛杉矶分校(UCLA)朱松纯(Song-Chun Zhu)教授访问自动化所,并做客模式识别学术大讲堂做题为《Beyond What and Where: Reasoning Function, Physics, Intents and Causality》的报告。 

  朱教授1991年毕业于中国科学技术大学,1994年和1996年先后获哈佛大学硕士和博士学位。朱教授目前任IEEE fellow,于2003年获得马尔奖(Marr Prize),并在1999年和2007年两度获得马尔奖荣誉提名(Marr Prize honorary nomination)。他还获得了Sloan基金颁发的学者奖(Sloan Fellow in Computer Science),NSF Career AwardONR Young Investigator AwardAggarwal prizefrom the Intl Association of Pattern Recognition)和Helmholtz Test-of-time prizeICCV2013)。 

  报告伊始,朱教授从人工智能开始谈起,以非常浅显易懂的例子来引导大家思考:计算机视觉应该是什么样子的?朱教授旁征博引,从计算机视觉能否解答小学生的题目到计算机能否辨别日常生活的细节、从有趣的生物学实验到人工智能从上世纪80年代开始的起起伏伏开始讲起,这个讲座从一开始就完全吸引住了所有人的注意力。 

  接着,朱教授讲起了他眼中计算机视觉应该是什么样的:从1970年到1990年,计算机视觉主要以几何特征为主要媒介,从1990年到2010年,计算机视觉主要以表观特征为媒介,但这两类特征都只能解决诸如分类、识别、检测、定位等问题,和人类视觉系统所体现出来的“智能”相去甚远。他认为,在人类视觉系统中,看得见的几何和表观特征所占比例很小,大部分是看不见的东西,就像物理学里的暗物质(dark matter)和暗能量(dark energy)在物理世界总占据绝大多数一样,而这些看不见的东西起着最为核心的作用,朱教授将这些“看不见的东西”归类为功能(function)、物理(physics)、动机(intents)和因果(causality。这个观点一经抛出就激起了大家浓浓的兴趣,这是一个和当今主流研究手段完全不同的途径,大家都期待着朱教授接下来还会带来怎样的惊喜。  

  并没有太吊大家胃口,朱教授为大家做了详细的讲解:功能是指场景中各个物体所提供的功能,比如椅子可以坐、杯子可以拿、人可以躺在床上等等,并且,这些具有不同功能的物体往往在尺寸上也是具有区别的,朱教授也罗列了他们组在这方面的一些工作。物理指的是场景中物体之间的物理联系,这种联系可以以速率、相互受力关系、场等来体现,比如支撑关系,再比如朱教授等人将物理空间中人们行为的“场”进行记录,以此来估计物体在场景中的稳定性。动机是指视觉中物体做某项行为的原因和做决定的判断依据,这些原因和依据就是朱教授要建模的暗物质和暗能量,比如在介绍中朱教授举的一个例子,在视频中,模型观察到一个人去倒茶叶,那么接着来模型估计其可能的动作是往杯子里重新放茶叶并加水,这与视频中很一致。因果关系探究为什么是这样、为什么不是这样、怎么做以及如果这样会怎样等问题,这样一些问题引起了同学们的极大热情,朱教授的讲解也给了大家很多启发,比如简简单单开门这件事就包含了深刻的哲学原理。 

  接下来,朱教授介绍了所有介绍问题所用到的统一的表达,也是其坚持做了十多年的研究成果:与或图(And-Or Graph)。由于在图中每一个节点都包含了诸如空间、时间、因果等多个属性,朱教授又介绍了联合推理方法。最后,朱教授还介绍了目前存在的挑战和未来工作。朱教授的讲解结合了许多很有趣的例子及其课题组坚实的工作基础,因此显得深入浅出,观众们也受益颇多,讨论环节大家提问也非常热烈,报告结束后,许多未得到提问机会的同学又围住朱教授虚心请教。 

  朱教授的讲座取得了非常积极的反响,朱教授为大家呈现了计算机视觉研究非常广阔和充满希望的一面,给大家带来了非常有启发性的观点。 

附件: