近日,中国科学院自动化研究所曾毅研究员课题组基于人类和生物视觉系统中广泛存在的幻觉轮廓现象启发,提出了一种将机器学习视觉数据集转换成幻觉轮廓样本的方法,量化测量了当前的深度学习模型对幻觉轮廓识别能力。实验结果证明从经典的到最先进的深度神经网络都难以像人一样具有较好的幻觉轮廓识别能力。研究发表于Cell Press细胞出版社旗下期刊Patterns。
神经网络和深度学习模型在过去十年中看似取得巨大成功,在许多给定的视觉任务中在指定方面超过了人类表现。然而,神经网络的性能仍然会随着各种图像扭曲和损坏而降低。一个非常极端的例子是对抗攻击,通过在图片上施加人眼难以察觉的微扰,能够使神经网络模型彻底失效。而人类的视觉系统在这些问题上具有高度鲁棒性,说明深度学习与生物视觉系统相比仍然存在根本性缺陷。
幻觉轮廓是认知心理学中经典的幻觉现象,指在没有颜色对比度或亮度梯度的情况下,生物视觉系统能够感知到一个清晰的边界(如图1所示)。这一现象已经在人类和多种动物物种中被广泛发现,包括哺乳动物、鸟类和昆虫等。独立进化的视觉系统中普遍存在幻觉轮廓感知能力,表明它在生物视觉处理中具有基础和关键的作用,也应该是人工智能视觉系统所必须具备的能力。交错光栅幻觉是一个经典的幻觉轮廓现象,位移的光栅会在没有亮度对比的情况下诱发出虚假的边缘和形状。本文主要研究了深度学习对交错光栅幻觉的识别能力。目前,交错光栅错觉被广泛应用于生理学研究中,以探索幻觉轮廓的生物视觉处理,而深度学习模型的幻觉轮廓感知相关研究相对较少。研究深度学习模型对幻觉轮廓感知的鲁棒性比图像干扰鲁棒性更加复杂,主要障碍是幻觉轮廓的样本有限,大多数研究分析的幻觉轮廓都依赖于在先前心理学文献中的手动设计。测试图片无法直接与深度学习模型训练的任务相匹配,同时由于数量很少,无法形成一个有相对规模的测试集,很难以机器学习的方式去衡量深度学习模型的幻觉轮廓感知能力。
图1 心理学中经典的幻觉轮廓图像。a. 幻觉轮廓最著名的例子Kanizsa三角形与其变体Kanizsa正方形;b. Ehrenstein幻觉;c. 交错光栅幻觉(AbuttingGrating Illusion)
曾毅研究员领衔的类脑认知智能研究组提出了一种名为交错光栅扭曲(Abutting Grating Distortion)的图像干扰方法,作为量化神经网络模型幻觉轮廓感知能力的工具。该方法可直接应用于具有外部轮廓而没有纹理信息的剪影图像,从而系统性地生成大量幻觉轮廓图像。研究团队将这一方法应用于手写数字MNIST数据集和物体的剪影图像(16-class-ImageNet silhouettes)上,并且通过插值增强图像的清晰度,从而生成对人眼具有更强幻觉效应的测试集图像,样例如图2所示。这些测试图像允许对一些常见的基于手写数字MNIST数据集或自然物体图片ImageNet训练的深度学习模型进行直接测试,而无需对模型进行重新训练。由于不同的参数设置能够产生不同程度的幻觉效应,本研究也面向人类被试者开展测试,用于了解不同的干扰参数对人类被试的幻觉轮廓感知能力的影响。
图2 交错光栅扭曲方法生成的样本
对于深度学习模型,本研究针对MNIST数据集训练了全连接网络和卷积网络,针对经过插值生成的高分辨率MNIST数据集训练了AlexNet、VGG11 (BN)、ResNet18和DenseNet121。对于自然物体的剪影图像,本研究收集了109种公开可用的预训练模型,包括TorchVision和timm模块的ImageNet预训练模型,从经典的AlexNet、VGGNet、ResNet到最新的ViT和ConvNeXt,以及GitHub上可以公开获取的数据增强模型,比如CutMix、AugMix和DeepAugment等模型。在MNIST和高分辨率MNIST上训练的模型在交错光栅扭曲测试集上的结果如图3所示。尽管在原始测试集上这些模型能够快速达到极高的准确率,在本研究产生的幻觉轮廓交错光栅扭曲测试集上的效果则是非常差,大部分情况下正确率收敛于10%,即几乎没有识别能力的随机水平。图4显示了预训练模型在交错光栅扭曲测试集上的准确率,结果表明,大多数预训练模型的表现接近随机,另外可以观测到当交错光栅之间的距离较小时,存在一些模型的结果与其他模型的分布有较显著的差别。最终,本研究发现使用深度增强(DeepAugment)技术训练的模型相比其他模型能够显著增强模型对交错光栅扭曲数据集的识别。
同时,研究招募了24名人类受试者,评估在不同的参数设置下人类的幻觉轮廓感知能力以及其对数字和图像识别的影响。图5展示了人类在MNIST,高分辨率MNIST和物体轮廓这三个交错光栅扭曲测试集的子集(每个测试集随机抽取100张)上的测试结果,并对比了之前深度神经网络在各任务所获得的最好结果。研究发现,即使是当前最先进的深度学习算法在交错光栅效应的识别上也与人类水平相距甚远。
图3 MNIST和高分辨率MNIST测试结果
图4 预训练模型测试结果
图5 人类实验结果与深度学习测试结果对比
研究对使用深度增强技术训练的模型浅层的神经元活动进行可视化,同时对比相同结构但是并未使用深度增强技术训练的模型,如图6所示。结果发现在无论模型是否使用了深度增强技术训练,都能够在模型的浅层发现沿着幻觉轮廓的神经元激活现象,但只有在使用了深度增强技术训练的模型中发现了类似端点激活神经元(Endstopped Neuron)的活动。端点激活神经元由Hubel和Wiesel最早发现,被认为参与了对幻觉轮廓的早期表征,并广泛用于幻觉轮廓感知的神经动力学计算建模。当线段的端点或拐角位于这些神经元的感受野中心时,它们被最大程度的激活,而将线段沿着感受野延伸则会降低激活程度。除了幻觉轮廓外,端点激活神经元还被广泛应用于模拟各种视觉感知现象,例如运动感知,曲率检测以及许多昆虫的小目标运动探测。在由深度增强算法训练的模型中发现了特定卷积核,其结构与计算神经科学理论所预言的端点激活神经元的空间排布拓扑结构相似,如图7所示。
总结来说,实验中的所有深度神经网络模型无论是否被训练,使用了什么方式训练,在maxpool层都产生了神经动力学层面的沿着幻觉轮廓的激活。然而即使如此,这一神经动力学层面的激活并没有能够帮助到深度神经网络最终在行为学层面识别出幻觉轮廓。而唯一拥有相对好的幻觉轮廓感知能力的深度增强模型,则表现出了端点激活效应(endstopping property),这一效应是其他模型没有表现出来的。这揭示了未来突破这个问题重点在于端点激活和幻觉轮廓的关系。
图6 ResNet50的浅层可视化结果
图7 类似端点激活神经元的现象和理论预言的拓扑结构
论文第一作者中科院自动化所类脑认知智能课题组范津宇表示,这项研究结合了认知科学和人工智能,提出了将传统机器视觉数据集转换成认知科学中的交错光栅幻觉图像,首次对大量的公开预训练神经网络模型的幻觉轮廓感知能力进行量化测量,并且从神经元动力学角度和行为学两个角度检验深度学习和神经网络模型对幻觉轮廓的感知。
论文通讯作者曾毅研究员指出:“我们认为这项研究最大的特点是从认知科学的角度检验和部分重新审视了当前看似成功的人工神经网络模型,并且证明人工神经网络模型与人脑视觉处理过程仍然存在着很大差距,这还只是人工智能与人类认知显著距离的冰山一角。大脑运作的机理和智能的本质将继续启发人工智能,特别是神经网络的研究。如想从本质上取得突破,人工智能需要借鉴并受自然演化、脑与心智的启发,建立智能的理论体系,这样的人工智能才会有长远的未来。”
论文标题:
Challenging Deep Learning Models with Image Distortion based on the Abutting Grating Illusion
论文地址:
https://www.cell.com/patterns/fulltext/S2666-3899(23)00026-0
本研究开源程序地址:
https://github.com/Brain-Cog-Lab/AbuttingGratingIllusion