国际计算机视觉与模式识别大会(IEEE/CVF Conference on Computer Vision and Pattern Recognition,,简称CVPR)是计算机视觉和模式识别领域的顶级会议,2022年将在美国新奥尔良召开。据统计,自动化所共有35篇论文被本届会议录用,汇总整理如下(排序不分先后):
01. AnyFACE: 自由式文本到人脸合成与操控
AnyFace: Free-style Text-to-Face Synthesis and Manipulation
现有的文本到图像生成的方法通常只适用于数据集中已有的单词,然而,有限的单词无法全面地描述一张人脸。因此,本文开创性地提出了一种自由风格的文本到人脸生成方法(AnyFace)以支持元宇宙、社交媒体、取证等更广泛的应用。对于任意给定的文本,AnyFace 采用一个新型的双通道网络实现人脸的生成和编辑。首先用CLIP编码器对人脸的文本和图像特征进行编码,跨模态蒸馏模块用于实现视觉和文本空间的交互。此外,本文还采用了一个多样化对比损失来生成更加多样化和细密度的细节。在多个数据集上的实验证明了算法的有效性。AnyFace可以在对输入没有限制的条件下实现高质量,高分辨率,多样性的人脸生成和编辑。
作者:Jianxin Sun, Qiyao Deng, Qi Li, Muyi Sun, Min Ren, Zhenan Sun
02. 基于独立成分的艺术风格发掘
Artistic Style Discovery with Independent Components
目前大多数风格迁移模型通常选择卷积神经网络来实现高质量的图像风格化,但这些方法很少对潜在的风格空间进行探索。在潜在的风格空间中,大量信息未能得到有效的利用,这导致生成的风格可控性差以及有限的实际应用。我们重新审视了风格特征的内在意义,并且提出了一种新颖的无监督算法。该算法用于生成多种风格并实现个性化操作。我们重新探索了风格转移的机制,并从由不同风格特征组成的潜在空间中解耦出了不同的艺术风格成分。通过线性组合不同的风格成分可以生成多种新的风格特征。我们在AdaIN、SANet、Linear、MST上取得了不错的效果。
图. 基于不同模型的多样性风格化图像
图. 风格特征由风格元件线性组合
作者:Xin Xie, Yi Li, Huaibo Huang, Haiyan Fu, Wanwan Wang, Yanqing Guo
03. 一种基于数据域和下游任务的预训练模型
DATA: Domain-Aware and Task-Aware Pre-training
通过自监督学习 (SSL) 和对许多下游任务进行微调来在无标签的海量数据上训练模型的范式最近已成为一种趋势。 然而,由于训练成本高和下游使用的无意识,大多数自监督学习方法缺乏对应下游场景多样性的能力,因为存在各种数据域、延迟约束等。 神经架构搜索 (NAS) 是一种公认的克服上述问题的方式,但在 SSL 上应用 NAS 似乎是不可能的,因为没有提供用于判断模型选择的标签或指标。在本文中,我们介绍了 DATA,这是一种简单而有效的 NAS 方法,专门用于 SSL,提供数据域相关和任务相关的预训练模型。具体来说,我们 (i) 首先训练了一个超网,它可以被视为一组数百万个网络,涵盖了广泛的模型规模,没有任何标签,(ii) 其次提出了一种与 SSL 兼容的灵活搜索机制,可以针对没有提供明确指标的各种下游视觉任务和数据域,找到不同计算成本的网络。使用 MoCov2 实例化,我们的方法在下游任务的广泛计算成本上取得了可喜的结果,包括图像分类、目标检测和语义分割。DATA 与大多数现有 SSL 方法正交,并赋予它们根据下游需求进行定制的能力。大量的实验验证了所提出的方法在其他 SSL 方法(包括 BYOL、ReSSL 和 DenseCL)上的普适性。
图. DATA结构设计
作者:Qing Chang, Junran Peng, Jiajun Sun, LingxiXie, Haoran Yin, Qi Tian, Zhaoxiang Zhang
代码已开源在:https://github.com/GAIA-vision/GAIA-ssl
04. DINE:基于单个或多个黑盒预测模型的领域自适应方法研究
DINE: Domain Adaptation from Single and Multiple Black-box Predictors
为了减轻标注的负担,无监督领域自适应学习旨在将先前和相关的已标注数据集(源域)中的知识转移到新的无标注数据集(目标域)。尽管取得了令人印象深刻的进展,但现有的方法总是需要访问原始的源域数据并依赖于此研发基于转导学习的方式识别目标样本,这可能会引起源域个体的数据隐私问题。最近的一些研究求助于另一种解决方案,即利用源域的已训练白盒模型(模型参数可见),然而,它仍然可能通过生成对抗学习来泄露原始数据。
本文研究了无监督领域自适应一种实用且有趣的场景,即在目标域自适应期间只提供黑盒源域模型(即只有网络的预测可见)。为解决这一问题,我们提出了一种新的两步知识自适应框架(DINE)。考虑到目标数据结构,DINE首先将源预测器中的知识提取到定制的目标模型中,然后对提取的模型进行微调以进一步适应目标领域。此外,DINE不需要需要跨域的网络结构一致,甚至可以在低资源设备上进行有效的自适应学习。在多个场景如单源、多源和部分集上的实验结果证实,与最先进的数据依赖方法相比,DINE均获得了极具竞争力的性能。
图. 基于黑盒模型的无监督域自适应学习问题
作者:Jian Liang, Dapeng Hu, Jiashi Feng, Ran He
05. 基于稀疏Transformer的单步长3D物体检测器
Embracing Single Stride 3D Object Detector with Sparse Transformer
在自动驾驶场景中,相比于整个场景的尺度,单个物体的尺度通常很小。下图展示了COCO数据集和Waymo数据集上物体相对尺度的分布情况:
图. COCO和Waymo上物体相对尺度分布
这一特性往往被基于Pillar或者体素的检测器所忽略,它们通常借用了成熟的2D多尺度检测器的结构。基于这一考量,本文探索了单步长(无降采样)的检测器结构。如果简单地将卷积网络提升为单步长网络,会取得一定的性能提升,但是会带来感受野不足的问题以及巨大的计算量。为了得到一个高效高性能的单步长检测器,我们借用了当前流行的swin transformer的结构,舍弃了其多尺度的结构并且针对点云数据的特点将其稀疏化,我们将其命名为单步长稀疏Transformer(Single-stride Sparse Transformer, SST)。我们在当前最大的3D检测数据集Waymo Open Dataset上做了详尽的实验,从各个方面探讨了SST的特性,并取得了SoTA的性能,特别是在小物体上比之前的方法有了显著的提升(达到了83.8的Level 1 AP)。
图. Sparse Attention结构设计
作者:Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang
代码已开源在:https://github.com/TuSimple/SST
06. 基于夏普利值的少样本后门防御
Few-shot Backdoor Defense Using Shapley Estimation
神经网络在诸多领域有着广泛的应用,但已有研究表明神经网络容易遭受后门攻击,造成潜在安全威胁,因此后门防御是一个非常重要的问题。已有后门防御工作通常需要较多训练数据并剪除大量神经元,这些防御算法容易破坏网络原本结构并依赖于来网络微调操作。
为了更高效准确地去除神经网络中的后门攻击,我们提出一种基于Shapley value的ShapPruning后门去除算法。ShapPruning利用触发器逆合成估计后门触发器,并通过蒙特卡洛采样以及epsilon-greedy算法高效估计神经网络中各神经元与网络后门攻击行为的关联程度,从而准确定位后门感染神经元,进而更精准的指导后门去除。相较于之前研究,我们的工作可以在每一类只有一张图片的情况下去除后门攻击,同时印证了后门攻击只通过感染神经网络中极少数神经元(1%左右)实现网络操纵。同时,我们采用data-inverse的方法,从感染模型中恢复训练数据,提出了一种无数据的混合模式ShapPruning算法,实现了无数据的神经后门去除。我们的方法在数据缺乏情况下,在CIIFAR10, GTSRB, YouTubeFace等数据集上针对已有后门攻击方式均取得了很好的效果。
图. ShapPruning后门防御算法
作者:Jiyang Guan, Zhuozhuo Tu, Ran He, Dacheng Tao
07. 基于隐式样本扩展的无监督行人重识别
Implicit Sample Extension for Unsupervised Person Re-Identification
现有的无监督行人重新识别(ReID)工作大都是通过聚类的方法来预测伪标签,其中同一聚类中的样本被认为具有相同的身份。然而,聚类通常会将不同的真实身份混合在一起,或者将相同的身份分成两个或多个子集群。毫无疑问,对这些有问题的集群进行训练会损害 Re-ID 的性能。
基于这一观察,我们假设现有数据分布中可能缺少一些基础信息,这些信息对于产生理想的聚类结果很重要。为了发现这些信息,提出了一种隐式样本扩展(ISE)方法来生成我们所说的围绕集群边界的支持样本。具体来说,我们开发了一种渐进线性插值(PLI)策略来指导支持样本生成的方向和程度。PLI控制支持从实际样本到其 K-最近聚类生成的样本。同时,决定了应将多少来自 K-最近集群的上下文信息纳入支持样本。此外,为了提高支持样本的可靠性,我们提出了一种保留标签的损失ISE,强制它们接近原始样本。有趣的是,有了我们的 ISE,聚类质量逐渐提高,上述子集群和混合集群的问题得到了很好的缓解。大量实验表明,所提出的方法是有效的,并且在无监督行人重识别 Re-ID 设置下实现了最先进的性能。
图. ISE方法说明
图. 模型结构示意图
作者:Xinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang
08. 基于变分图信息瓶颈的子图识别方法
Improving Subgraph Recognition with Variational Graph Information Bottleneck
子图识别问题是指识别图结构数据中的与图属性有关的预测性子图。该问题是图神经网络可解释性分析、组织病理学分析以及鲁棒图分类等任务中的关键性问题。针对该问题,现有的方法通过优化图信息瓶颈目标函数来识别预测性子图。然而,由于互信息估计过程十分繁琐且难以准确估计,现有的方法训练耗时且不稳定,并极易得到退化解。因此,本文提出了变分图信息瓶颈方法。该方法首先引入噪声注入模块,对图数据中的节点依概率选择性注入噪声从而得到扰动图。通过比较扰动图与原始图预测结果的差别来衡量注入噪声节点的重要性。针对采样过程不可导,我们设计了基于重参数化技巧的噪声注入方法。通过引入噪声注入模块,我们将原始图信息瓶颈目标函数转化为变分图信息目标函数,并利用变分技巧得到了目标函数的变分上界。通过优化该变分上界求解图信息瓶颈问题,提高了优化过程的稳定性与速度。最后,将扰动图中的噪声节点去掉即得到了预测性子图。我们在多种视觉任务和图学习任务上测试了变分图信息瓶颈方法。实验结果表明该方法不仅易于优化,且在多种任务上取得很好的效果。
图. 基于变分信息瓶颈的子图识别框架
作者:Junchi Yu, Jie Cao, Ran He
09. 面向盲超分辨率的退化分布学习
Learning the Degradation Distribution for Blind Image Super-Resolution
当前的超分方法大多采用合成的成对的高清-低清样本来训练模型。为了避免合成数据与真实数据之间存在域差异,之前大部分方法采用可学习的退化模型去自适应地生成合成数据。这些降质模型通常是确定性的(deterministic),即一张高清图片只能用来合成一张低清样本。然而,真实场景中的退化方法通常是随机的,比如相机抖动造成的模糊和随机噪声。确定性的退化模型很难模拟真实退化方法的随机性。针对这一问题,本文提出一种概率(probabilistic)退化模型。该模型把退化当作随机变量进行研究,并通过学习从预定义的随机变量到退化方法的映射来建模其分布。和以往的确定性退化模型相比,我们的概率退化模型可以模拟更加多样的退化方法,从而生成更加丰富的高清-低清训练样本对,来帮助训练更加鲁棒的超分模型。在不同的数据集上的大量实验表明,我们的方法可以帮助超分模型在复杂降质环境中取得更好的结果。
图. 基于概率退化模型的盲超分模型结构
作者:Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang, Tieniu Tan
10. 一种基于Meta-Memory的跨域小样本语义分割方法
Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer
小样本语义分割旨在通过使用少量标记数据来预测像素类别。现有小样本语义分割研究主要关注于在同一分布中采样基类和新类。然而,现实中数据分布并不能保证都在同一分布中,实际中显著存在的域偏移问题降低了小样本学习的性能。为了解决这个问题,我们引入了一个有趣且具有挑战性的跨域小样本语义分割任务,其中训练任务和测试任务在不同的域上执行。
图. 跨域小样本学习
在学习过程中,我们使用一个元知识库来存储源域实例的域内样式信息并将它们传输到目标域样本,并且我们采用对比学习策略来约束迁移阶段新类的判别信息,由于源域信息的载入,目标域与源域的domain gap被有效降低。实验表明,我们提出的方法在4个数据集上的跨域少样本语义分割任务上取得了优异的性能。
图. 模型结构设计
作者:Wenjian Wang, Lijuan Duan, Yuxi Wang, Qing En, Junsong Fan, Zhaoxiang Zhang
11. 重新思考图像裁切:从全局视角探索多样化的构图
Rethinking Image Cropping: Exploring Diverse Compositions from Global Views
图像裁切是一种简单有效的可以提升图像构图美感的方式。现有的两类模型,候选裁切评估模型和裁切坐标回归模型,都有明显的缺陷。候选裁切评估模型难以遍历所有高质量裁切,无法满足全局性要求;而裁切坐标回归模型则只能输出一个裁切结果,忽视了多样性。针对全局性和多样性不能兼得的问题,我们提出了一种基于软标签集合预测的图像裁切模型。模型使用一组固定数量的可学习锚通过条件Transformer网络回归多个裁切。回归裁切与真实裁切进行二分图匹配,匹配结果用于训练一个辅助的有效性分类器,使模型可以从所有预测中挑选有效子集。为了缓解有效性分类硬标签与无效裁切的真实质量之间的不一致性,我们进一步提出了两种标签平滑策略。第一种基于裁切的局部冗余性对质量分数进行直接估计并映射为软标签;第二种使用自蒸馏策略进行自主平滑。两种策略分别适用于密集标注和稀疏标注的数据集。我们的模型在两个版本的GAIC数据集和FLMS数据集上均取得突出效果,同时克服了两类传统模型的缺陷,能够对图像进行全局遍历并找出多个高质量裁切。更加适用于真实场景的应用。
图. 基于软标签集合预测的图像裁切模型
作者:Gengyun Jia, Huaibo Huang, Chaoyou Fu, Ran He
12. 自监督预测学习:一种用于视觉场景声源定位的无负样本方法
Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes
视觉和声音信号在物理世界常常相伴而生。一般而言,人可以“较为轻松地”将耳朵听到的声音和眼睛看到的物体一一对应起来,从而根据声音来定位发声物体。为实现这一类人行为智能,现有方法大多基于对比学习策略来构建图像和声音特征之间的对应关系。但这类方法均以随机采样的方式形成对比学习的负样本对,易引起不同模态特征之间的错误对齐,最终造成声源定位结果的混淆。
在本文中,我们提出了一种无需使用负样本的自监督学习方法,通过充分挖掘来自相同视频的视频帧图像和声音信号在特征水平上的相似性,来避免随机采样负样本引起的定位混淆问题。
为实现这一目的,我们首先设计了一个三分支深度网络,通过对同一视频帧图像进行数据增广,来构建声音特征与不同视角下的视觉特征之间的语义相关性;然后利用SimSiam式的自监督表示学习方法训练模型;最后,使用声音特征与视觉特征之间的相似性图确定声源位置。值得强调的是,提出的预测编码(Predictive Coding)模块有效实现了视觉模态和声音模态之间的特征对齐,有望拓展应用到其它多模态学习任务,如视觉-语言多模态。
在两个标准的声源定位数据集(SoundNet-Flickr和VGG-Sound Source)上进行的定量和定性实验表明,我们的方法在单声源定位任务上表现最优,证明了所提方法的有效性。
图. SSPL结构设计
作者:Zengjie Song, Yuxi Wang, Junsong Fan, Zhaoxiang Zhang, Tieniu Tan
13. 基于稀疏实例激活的实时实例分割方法
Sparse Instance Activation for Real-Time Instance Segmentation
在本文中,我们提出了一种新颖、高效的全卷积实时实例分割框架。以前,大多数实例分割方法严重依赖目标检测并基于边界框或密集中心执行掩码预测。相比之下,我们提出了一组稀疏的实例激活图,作为新的对象表示,以突出每个前景对象的信息区域。然后根据高亮区域聚合特征得到实例级特征,进行识别和分割。此外,基于二分匹配,实例激活图可以以一对一的方式预测对象,从而避免后处理中的非极大值抑制(NMS)。由于具有实例激活图的简单而有效的设计,SparseInst 具有极快的推理速度,在 COCO 基准测试中达到了 40.2 FPS 和 36.9 AP,在速度和准确性方面明显优于现有方法。
图. 在速度和精度上与现有实时实例分割算法的比较
图. SparseInst框架结构
作者:Tianheng Cheng, Xinggang Wang, Shaoyu Chen, Wenqiang Zhang, Qian Zhang, Chang Huang, Zhaoxiang Zhang, Wenyu Liu
14. 基于窗口注意力机制的深度图像压缩
The Devil Is in the Details: Window-based Attention for Image Compression
近年来,基于深度学习的图像压缩方法表现出比传统图像压缩方法具有更好的RD Performance。目前基于深度学习的图像压缩模型大都基于CNN。其主要缺点是CNN结构不是为捕捉局部细节而设计的,尤其是局部冗余信息,影响了重建质量。因此,如何充分利用全局结构和局部纹理成为基于深度学习图像压缩的核心问题。
受到ViT和 Swin的启发,我们发现将局部感知注意力机制与全局相关特征学习相结合可以满足图像压缩的预期。在本文中,我们首先广泛研究了多种注意力机制对局部特征学习的影响,然后介绍了一种更直接有效的基于窗口的局部注意力块。所提出的基于窗口的注意力非常灵活,可以作为即插即用组件来增强图像压缩模型。此外,本文提出了一种新颖的Symmetrical Transformer框架,是Transformer在图像压缩领域的第一次探索。
基于本文设计的Symmetrical Transformer框架和CNN框架在基于PSNR和MS-SSIM的量化指标上,均取得了新的SOTA性能。此外,在主观质量上,也有明显的改善。
图. Symmetrical Transformer结构设计
作者:Renjie Zou, Chunfeng Song, Zhaoxiang Zhang
代码近期将开源:https://github.com/Googolxx/STF
15. 可迁移稀疏对抗攻击
Transferable Sparse Adversarial Attack
研究对抗攻击对深度神经网络的鲁棒性评估具有重要意义。在本文中,我们关注基于零范数约束的稀疏对抗攻击,即修改图像的少量像素点造成模型的错误输出。已有稀疏对抗攻击尽管取得了较高的白盒攻击成功率,但由于过拟合目标模型,在黑盒攻击中可迁移性较差。我们引入了一种生成器框架来缓解过拟合问题,从而有效地生成可迁移的稀疏对抗样本。具体地,我们所设计的生成器将稀疏扰动解耦为幅值和位置,使用所设计的随机量化算子,以端到端的方式联合优化这两个分量。实验表明,与最先进的方法相比,我们的方法在相同的稀疏度下显著提高了可迁移性和计算速度。
图. 可迁移稀疏对抗攻击框架
作者:Ziwen He, Wei Wang, Jing Dong, Tieniu Tan
代码已开源: https://github.com/shaguopohuaizhe/TSAA
16. 基于低噪声物体轮廓的弱监督语义分割
Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation
得益于深度神经网络的迅速发展,语义分割研究在近年来取得了巨大进展。然而,生成像素级语义分割标签需要巨大的时间和经济投入。使用图像类别、物体框、物体划线、物体点标记等弱标签训练分割网络可以有效降低时间和经济成本。其中,图像类别标签成本最低,相关的弱监督分割研究最为活跃。这些方法通常会训练一个分类网络,基于分类网络的类激活图(CAM)生成分割伪标签L1,利用L1训练分割网络,这种伪标签通常不能覆盖完整的前景物体。一些方法利用伪标签L1训练模型预测物体轮廓,并在轮廓约束下将CAM分数从高置信度前景区域传播到低置信度前景区域,使生成的伪标签L2包含更完整的前景物体。我们认为伪标签L1缺乏足够的高层语义信息来监督轮廓检测网络,轮廓网络输出的噪声边界会阻碍CAM分数传播。为了得到低噪声物体轮廓,我们训练了SANCE模型,它包含一个辅助语义分割分支,该辅助分支通过主干网络特征共享和在线标签为轮廓检测分支训练提供足够的高层语义信息,辅助分支预测的分割结果也提供了比CAM更好的前景物体分布信息,进一步提高了伪标签质量。我们在Pascal VOC 2012 和COCO 2014数据集上进行了实验,伪标签训练的语义分割网络取得了SOTA性能。
图. 模型结构设计
作者:Jing Li,Junsong Fan ,Zhaoxiang Zhang
17. 基于代表性片段知识传播的弱监督时序行为定位
Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation
弱监督时序行为定位的目的是仅通过视频类别定位出视频中的行为边界。现有的许多方法大多基于分类的框架,并试图生成伪标签以减小分类任务和定位任务之间的差异。现有的方法通常只利用有限的上下文信息来生成伪标签,导致生成的伪标签。为了解决这个问题,我们提出了一个提取出并传播代表性的片段的弱监督时序行为定位框架。我们的方法旨在挖掘每个视频中的代表性片段,以便在视频片段之间传播信息,以生成更好的伪标签。对于每个视频,我们的方法基于高斯混合模型生成其独有的代表性片段,并将代表性片段根据分数优先的原则储存在对应类别的记忆库中。在得到代表性片段后,我们的方法利用所提出的双向随机游走模块更新原始的视频特征,利用更新后的视频特征生成视频的伪标签,以在线的方式纠正主分支的预测结果。我们的方法在两个基准数据集THUMOS14和ActivityNet1.3上获得了优越的性能,在THUMOS14上的平均mAP高于最优方法1.2%。
图. 代表性片段知识传递框架
作者:Linjiang Huang, Liang Wang, Hongsheng Li
18. UniVIP:一个统一的视觉自监督预训练框架
UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
在视觉领域中,如何充分利用大量的无标签视觉数据,构建一个高效的通用视觉自监督预训练模型,有效降低下游任务数据标注量,在使用少量带标签数据甚至不使用数据微调即可获得超越全监督模型的性能,具有非常重要的研究和应用价值。
然而,当前流行的自监督方法往往存在语义一致性问题,即仅对单目标图像有效(如ImageNet),并且忽略了场景和实例之间的相关性,以及场景中实例的语义差异。为了解决上述问题,我们提出了一种统一的自监督视觉预训练方法UniVIP,这是一种新颖的自监督框架,用于在单中心对象或多目标数据集上学习通用视觉表示。该框架考虑了三个层次的表示学习:1)场景-场景的相似性,2)场景-实例的相关性,3)实例-实例的区分。在学习过程中,我们采用最优传输算法来自动测量实例的区分度。
大量实验表明,在多目标数据集 COCO 上预训练的 UniVIP,在图像分类、半监督学习、目标检测和分割等各种下游任务上实现了最先进的性能。此外,我们的方法还可以利用 ImageNet 等单中心对象数据集,并且在线性评估中使用相同的预训练 epoch时优于BYOL 2.5%,并且在 COCO 数据集上超越了当前的自监督目标检测方法,证明了它的通用性和潜力。
图. UniVIP框架图
作者:Zhaowen Li, Yousong Zhu, Yang Fan, Wei Li, Chaoyang Zhao, Yingying Chen, Zhiyang Chen, Jiahao Xie, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang
19. C2AM损失:为长尾目标检测任务追求更好的决策边界
C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection
对于长尾目标检测任务来说,线性分类器中不同类别对应的参数向量的模值呈现一个极度不均衡的分布。这种分类器参数模值的分布不均会产生病态的分类边界(下图(a)),使得分类器参数模值较小的类别有接近于零的精度。余弦分类器可以避免由于分类器参数模值分布不均导致的病态的分类边界,但是其分类边界位于两个类别对应分类器参数向量的角分线上(下图(b)),没有考虑到类别的特性。
直觉上说,样本丰富度比较小的类别在分类空间中应该占据较小的区域。为了使网络为尾部类别学习到一个更加紧凑和本质的特征表示,我们提出了一种类别感知的角度间隔损失(Category-Aware Angular Margin Loss,C2AM Loss),通过加入与类别相关的自适应的角度间隔来对不同类别间的分类边界进行调整。具体的公式如式(1)(2)所示。
该方法对比基线方法有显著的性能提升(4.9%~5.2% APm),并且在LVIS数据集上超越了当前的长尾目标检测算法,实现了同期的最好性能。
图. 不同条件下的分类边界示意图
作者:Tong Wang, Yousong Zhu, Yingying Chen, Chaoyang Zhao, Bin Yu, Jinqiao Wang, Ming Tang
20. APRIL:寻找视觉Transformer隐私泄露的关键弱点
APRIL: Finding the Achilles' Heel on Privacy Leakage for Vision Transformers
联邦学习作为一种数据隔绝的分布式训练框架能够避免数据隐私的直接泄露。然而,梯度泄露攻击 (gradient leakage)作为一种隐私攻击方法,能够从卷积神经网络或全连接网络的梯度中恢复数据的隐私信息。论文面向基于注意力机制的模型结构,分析了注意力模块固有的隐私缺陷,提出了针对注意力模块的闭式解攻击和针对Transformer的基于优化的隐私攻击方法APRIL。APRIL相比于已有的攻击方法能够在基于注意力结构的模型上获得更好的隐私攻击效果。论文还提出了针对APRIL攻击的防御手段,为面向隐私保护的模型结构设计提供了启发。
作者:Jiahao Lu, Xi Sheryl Zhang. Tianli Zhao, Xiangyu He, Jian Cheng
21. 基于本地正则化和稀疏化差分隐私的联邦学习
Differentially Private Federated Learning with Local Regularization and Sparsification
用户级差分隐私能够为联邦学习中任一用户的数据提供可认证的隐私保证。然而,现有的确保用户级差分隐私的方法都以严重损害模型精度为代价。论文研究了造成这种损害的原因,发现解决这个问题的关键是在执行保证差分隐私的操作之前,自然地限制本地权重更新的范数。基于这一观察,论文提出了有界局部更新正则化和局部更新稀疏化两种技术,以达到在不牺牲隐私的前提下提高模型精度的目标,对框架的收敛性和隐私性进行了理论分析。大量的实验表明,该框架显著地改善了隐私与精度之间的权衡。
作者:Anda Cheng, Peisong Wang, Xi Sheryl Zhang, Jian Cheng
22. MixFormer:跨窗口与维度的特征融合
MixFormer: Mixing Features across Windows and Dimensions
基于局部窗口的自注意力(local-window Self-attention)可以广泛应用在多个视觉任务上,然而它在应用的过程中面临两个问题:(1)感受野受限;(2)通道维度上的建模能力较弱。这是因为该方法在没有重叠的局部窗口上做自注意力操作并且在通道维度共享参数导致的。论文提出了一种通用模型MixFormer,旨在解决上述问题。首先,MixFormer基于平行分支设计(parallel design),将局部自注意力(local-window Self-attention)与通道分离卷积(depth-wise Convolution)进行结合,融合了局部窗口的信息,扩大了感受野;其次,MixFormer根据不同分支上操作共享参数的维度不同,在平行分支之间,MixFormer提出双向交互模块(bi-directional interaction),融合不同维度信息,增强模型在各个维度的建模能力。基于以上两点,MixFormer作为一个通用的模型,在图像分类、目标检测、实例分割、语义分割、人体关键点检测、长尾实例分割等多个视觉任务上都取得了SOTA的结果。
作者:Qiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu, Errui Ding, Jian Cheng, Jingdong Wang
23. 基于粗粒度和细粒度特征匹配的视频描述评估
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching
当前,视频描述的评价方式主要基于参考文本和候选描述之间的文本比较。忽略了视频描述任务的特性,可能导致有偏差的评估。因此,我们提出了 EMScore(Embedding Matching-based score),这是一种专用于视频描述的新颖的无参考评价指标,其直接度量视频和候选描述之间的相似度。实验表明 EMScore 具有更高的人类相关性和更低的参考依赖性。
作者:Yaya Shi, Xu Yang, Haiyang Xu, Chunfeng Yuan, Bing Li, Weiming Hu, Zheng-Jun Zha
24. 基于视觉-语言验证和迭代推理的视觉定位
Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation
近年来,从跨模态模型中进行知识蒸馏使得开放词汇检测任务取得了快速进展。然而,我们发现用单阶段检测器进行知识蒸馏所达到的效果远不如双阶段检测器,我们分析了产生这种差异的原因是双阶段方法中类别无关的物体候选覆盖了未见类别,使得它在蒸馏时能学到未见类别的语义信息,而单阶段方法中所定义的正样本只包含已知类别,缺失了对新类别的学习。
为了弥补单阶段方法因缺少类别无关物体候选的这种固有缺陷,我们提出了一种对未见类别物体进行隐式学习的弱监督方法。该方法通过caption与特征图之间的跨模态注意力机制来进行语言到视觉的全局级知识蒸馏。凭借以上方案,我们显著超过了过去最好的开放词汇单阶段检测器。
作者:Li Yang, Yan Xu, Chunfeng Yuan*, Wei Liu, Bing Li, Weiming Hu
25. 基于层次化视觉语言知识蒸馏的开放词汇单阶段检测
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning
本文提出了一个基于transformer的框架,通过建立文本关联的判别性特征和多阶段跨模态推理来实现准确的视觉定位(visual grounding)。具体来说,我们设计了一个视觉-语言验证模块(visual-linguistic verification module),使视觉特征关注于文本描述相关的区域,并抑制其它无关区域。同时我们还设计了一个语言指导的特征编码器(language-guided feature encoder)来聚合目标的视觉上下文,提高其特征辨别性。为了从建立的视觉特征中检索出目标,我们进一步提出了一种多阶段的跨模态解码器(multi-stage cross-modal decoder)来迭代推理图像和语言之间的相关性,从而准确定位目标。我们在RefCOCO、RefCOCO+和 RefCOCOg数据集上进行了实验,并取得了state-of-the-art的性能。
作者:Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang, Congxuan Zhang, and Weiming Hu
26. 基于Transformer的图象风格化
StyTr2: Image Style Transfer with Transformers
本文提出了一种基于变压器(Transformer)的图像风格迁移方法,即StyTr2,将输入图像的长期依赖关系引入到风格化中。与用于其它视觉任务的Transformer不同,本文设计的StyTr2包含两个不同的Transformer编码器,分别为内容和风格图片生成具有不同域特征的序列。在编码器之后,采用多层Transformer解码器,根据风格序列对内容序列进行风格化。此外,本文分析了现有位置编码方法的不足,提出了内容感知的位置编码,该方法具有尺度不变特性,更适合于图像风格化任务。与基于CNN和基于流的最新方法相比,定性和定量实验均证明了StyTr2的有效性。
图. 网络结构
图. 风格化结果比较
作者:Yingying Deng, Fan Tang, Weiming Dong, Chongyang Ma, Xingjia Pan, Lei Wang, Changsheng Xu
代码已开源:https://github.com/diyiiyiii/StyTR-2
27. 基于细粒度时序对比学习的弱监督行为定位
Fine-grained Temporal Contrastive Learning forWeakly-supervised Temporal Action Localization
目前,弱监督视频行为定位方法主要遵循于通过优化视频级分类目标来实现定位的方式。这些方法大多忽略了视频之间丰富的时序对比关系,因此在分类学习和分类-定位自适应的过程中面临着极大的模糊性。本文认为通过考虑上下文的序列到序列对比可以为弱监督时序行为定位提供本质的归纳偏置并帮助识别连续的行为片段。因此,如图1所示,本文在一个可导的动态规划框架下,设计了包括细粒度序列距离对比和最长公共子序列对比在内的两个互补的对比目标函数。在多个主流的基准数据集上的实验结果表明本文方法取得了显著的效果。
图. 基于细粒度时序对比学习的弱监督行为定位方法框架
作者:Junyu Gao, Mengyuan Chen, Changsheng Xu
28. AME:超参数优化中的注意力和记忆增强
AME: Attention and Memory Enhancement in Hyper-Parameter Optimization
深度神经网络的训练受制于敏感的超参数和不及时的性能评估反馈。针对这两个难点,在深度强化学习的框架下,本文提出了一种高效的并行超参数优化模型,命名为AME。从技术上讲,本文开发了一种注意力和记忆增强结构,能够精准搜索嵌入到巨大搜索空间中的高性能配置。具体地,该结构应用了多头注意力机制和记忆机制,以增强神经网络捕捉不同超参数配置间的短期和长期关系的能力。在AME的优化过程中,本文采用了概念直观但功能强大的Bootstrap策略来解决由于性能评估反馈不及时而导致的样本数量不足的问题。最后,在图像分类、目标检测、语义分割这三个视觉任务上进行实验,证明了AME的有效性。
图. 模型整体结构
作者:Nuo Xu, Jianlong Xing, Xing Nie, Shiming Xiang, Chunhong Pan
29. 视觉提示调优
Vision Prompt Tuning
在计算机视觉中,微调是广泛采用的将预训练视觉模型适应于下游任务的方法。然而,由于这类方法多采用低效的全局参数更新策略,以及严重依赖于高质量的下游数据,在实践中部署非常具有挑战性。最近,基于prompt的方法采用任务特定的提示以使下游任务适应预训练模型,极大地提高了许多自然语言下游任务的性能。在本工作中,我们将这种显著的迁移能力扩展到视觉模型中,作为微调的替代方案。为此,我们提出了视觉提示调整(VPT),这是一种参数高效的视觉调优范式,可将冻结的视觉模型适应到下游数据。VPT 的关键是基于提示的调优,即只学习与输入图像拼接的特定于任务的视觉提示,并冻结预训练模型。通过这种方式,VPT只需训练少量的额外参数即可产生轻量级、鲁棒的下游模型。实验证明我们的方法在大量的下游视觉数据集上优于当前的微调方法,包括图像损坏、对抗性示例、长尾分布和OOD问题等。
作者:Xing Nie, Gaofeng Meng, Jianlong Chang, Chunlei Huo, Shiming Xiang, Qi Tian, Zhaoxiang Zhang, Chunhong Pan
30. 基于架构增长的连续驾驶场景的连续立体匹配
Continual Stereo Matching of Continuous Driving Scenes with Growing Architecture
深度立体匹配模型近年来在驾驶场景中取得了先进的性能,但是其部署在未见过的场景时性能会严重下降。尽管最近的研究工作通过连续的在线自适应缓解了这个问题,但这种设定在模型推理时仍然需要不断进行梯度更新,并且很难应对快速变化的场景。为了应对这些挑战,本文提出了连续立体匹配问题,旨在让模型能够不断地学习新场景,同时克服遗忘之前学习的场景,并且在模型部署时能连续地预测视差。本文通过引入可复用架构增长(RAG)框架来实现此目标。RAG利用基于特定任务的神经单元搜索和网络架构增长来连续地学习新场景。在增长时,通过重用之前的神经单元来保持较高的复用率,同时获得良好的性能。本文进一步引入了一个场景路由模块,以在推理时自适应地选择适用于特定场景的架构路径。实验结果表明,本文提出的方法在各种具有挑战性的天气和道路环境中都优于此前最先进的方法。
图. 可复用架构增长(RAG)框架示意图
作者:Chenghao Zhang, Kun Tian, Bin Fan, Gaofeng Meng, Zhaoxiang Zhang, Chunhong Pan
31. 基于层次解析胶囊网络的无监督人脸部件发现
HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule Network
图. 层级解析胶囊网络的简要说明
胶囊网络旨在通过一组部件以及部件之间的关系来表征物体,这对视觉感知过程提供了指导。尽管最近的工作证明了胶囊网络在简单对象(如数字)上的成功,但对具有同源结构的人脸的探索仍然不足。
在本文中,我们提出了一种层级解析胶囊网络(HP-Capsule),用于无监督的人脸部件发现。在浏览没有标签的大规模人脸图像时,网络首先使用一组可解释的子部分胶囊对经常观察到的模式进行编码。然后,通过基于Transformer 的解析模块 (TPM) 将子部分胶囊组装成部件级胶囊,以学习它们之间的组合关系。在训练过程中,随着人脸层次结构的逐步构建和细化,部件胶囊自适应地对具有语义一致性的人脸部分进行编码。 HP-Capsule 将胶囊网络的应用从数字扩展到人脸,并向前迈出了一步,展示了神经网络如何在没有人工干预的情况下理解同源对象。
图. HP-Capsule模型结构示意
作者:Chang Yu, Xiangyu Zhu, Xiaomei Zhang, Zidu Wang, Zhaoxiang Zhang, Zhen Lei
32. 长尾视觉数据识别的嵌套式协同学习方法
Nested Collaborative Learning for Long-Tailed Visual Recognition
近年来,长尾分布数据的视觉识别问题受到了越来越多的关注。通过大量的实验,我们发现在相同的训练设置,不同的模型初始化下,长尾数据训练出的模型表现出相当大的差异,这体现出了长尾学习中巨大的不确定性。为了减轻这种不确定性,我们提出了一种多专家网络的嵌套式的协同学习方法(NCL),它由两个部分组成,即嵌套个体学习(NIL)和嵌套平衡在线蒸馏(NBOD),前者着重于单个专家网络的学习,后者则帮助多个专家网络传递学到的知识,协同学习。NIL和NBOD都在嵌套的关系中学习,即基于所有类别的全局注意力学习和基于难类别的局部注意力学习。这样的嵌套关系来自于我们提出的简洁有效的难类别挖掘模块(HCM)。对于网络的输出分数,HCM仅选择部分拥有高分数的难类别作为网络训练的负类别,这样便构建出了嵌套关系中的局部注意力。通过NCL,网络的学习彼此嵌套、互补,这样不仅有利于网络捕捉到全局且鲁棒的特征,还提升了网络对更细粒度信息的区分能力。除此之外,自监督也被应用到其中,加强特征的学习。该方法在长尾数据库CIFAR-10/100-LT, Places-LT, ImageNet-LT和 iNaturalist 2018上都取得了目前最好的性能。
作者:Jun Li, Zichang Tan, Jun Wan, Zhen Lei, Guodong Guo
33. 基于时空解耦与重耦的RGB-D动作识别
Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition
在行为识别领域,虽然当前的一些基于RGB-D模态的动作识别方法可以取得显著效果,但是他们都是建立在时空紧密耦合架构的基础上进行的时空信息建模。因此,这些方法主要存在以下三个问题:(1)由于时空建模过程的紧密耦合,导致在一些小数据集上面临一定的优化困难;(2)网络中包含的大量与分类无关的边缘冗余信息可能会误导分类器做出错误的决策;(3)视频多模态信息之间缺乏有效的时空交互导致后验融合机制不能充分发挥其作用。所以在本文中,我们提出了一种有效建模时空信息的解耦与重耦合机制以及一种新颖的RGB-D多模态时空信息交互策略。具体来讲,我们将多模态时空信息建模过程分成三个子任务:(1)通过解耦时空建模网络实现高质量维度无关的时间和空间表征学习。(2)重新耦合这些解耦的时空表征以重新建立强时空依赖。(3)引入一种新的跨模态时空信息交互方案和自适应后验融合机制(CAPF)来深度融合RGB-D多模态时空信息。通过充分利用以上技术,可以实现更加鲁棒的时空表征学习。
图. 基于解耦与重耦合机制的多模态时空表征学习网络架构
作者:Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang, Du Zhang, Zhen Lei, Hao Li, Rong Jin
34. 基于灵活模态Transformer的人脸防伪
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing
目前基于多模态的人脸防伪算法存在两点不足:(1)基于多模态融合的方法要求提供与训练过程一致的模态样本,严重限制了算法的部署场景;(2)由于卷积操作挖掘视觉线索的挑战,基于ConvNet的模型对新出现的高保真攻击样本表现不佳。在本文工作中,我们提出了一基于纯Transformer的框架,称为灵活模态的Transformer(FM-ViT),用于人脸防伪任务,以借助多模态信息灵活地提升对任何单一模态攻击的识别性能。为了实现该目的,FM-ViT首先为每种模态保留一个特定的分支,以学习不同的模态信息。同时引入跨模态Transformer块(CMTB),由两个级联的注意力模块组成,分别称为Multi-headed Mutual-Attention(MMA)和Fusion-Attention(MFA),分别用于引导每个分支学习潜在的和模态无关的活性特征。
具体来说,如图1(a)所示,FM-ViT建立在多个ViT分支上,由token化模块、Transformer编码器和分类头组成。一个完整的Transformer编码器包含K个“阶段”。其中每个“阶段”由M个标准Transformer块(STB)和一个跨模态Transformer块(CMTB)堆叠。在每个“阶段”中,CMTB共享权值(用红色双箭头线显示),并接收之前多模态STBs的输出作为输入(用虚线显示)。如图1(b)所示,CMTB由两个级联的MMA和MFA组成。STBs与CMTB构成Transformer编码器的一个“阶段”。如图1(c)所示,MMA计算所有模态的相关图,以挖掘任意模态分支中潜在patch tokens;MFA为任意模态分支融合其他分支的模态信息,指导当前分支学习模态无关的活性特征。
图. 一种基于灵活模态的人脸防伪方法示意图
作者:Ajian Liu, Zichang Tan, Jun Wan, Yanyan Liang, Zhen Lei, Guodong Guo, Stan Z. Li
35. 基于实例深度估计的统一深度感知全景分割
PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation
深度感知全景分割旨在从单幅图像的重建3D语义场景。现有方法直接对全景分割模型添加密集预测式单目深度估计分支解决此问题,在深度估计中仅考虑了像素级底层特征,缺乏对实例级几何信息的利用,实例掩码和深度估计方式的不统一也导致多任务间信息交互的不足。为克服这些限制,本工作探索了实例掩码和深度估计的联合建模问题,提出了更加统一的深度感知全景分割方法。该方法将对全图的深度估计分解至各个实例分别学习预测,并在模型推理阶段根据实例掩码组合在一起。同时,为了缓解不同实例间深度分布范围差异过大导致的实例间共享特征难以学习的问题,本工作将实例深度图进一步解耦为归一化实例深度图、实例深度缩放系数和实例深度偏移系数,并同时使用像素级和实例级监督信息指导深度估计的学习,通过减少搜索空间实现了算法性能的提升。实验结果表明,本工作所提出的方法在多个数据集上实现了相对基准方法更优的性能,尤其是显著提升了在前景物体上的掩码和深度估计性能,验证了方法的有效性。
作者:Naiyu Gao, Fei He, Jian Jia, Yanhu Shan, Haoyang Zhang, Xin Zhao, Kaiqi Huang