2019年8月28日,自动化所图像与视频分析团队在中国多媒体大会(ChinaMM)的VideoNet视频内容识别挑战赛中获得冠军。获奖团队Zhu队由朱贵波副研究员和王金桥研究员带队,成员来自中科院自动化所、北京工业大学和CEIEC。Zhu队同时受邀在中国多媒体大会ChinaMM2019的专题论坛上做特邀报告。
近年来,随着深度学习技术的发展,涌现出大量针对物体、场景、人脸、动作等维度的识别技术,在各自的目标维度上取得了明显的进步。但是目前各视频识别算法基本都是针对单一维度来设计的,无法利用各维度之间存在的丰富的语义关联建立模型,提高识别准确度。当前也缺乏一个包含多维度标注的大规模视频数据集来为多维度视频识别算法研究提供训练测试数据支持。
「VideoNet视频内容识别挑战赛」包含行为事件识别、物体检测、开集场景识别三个子任务,比赛最终成绩由三个子任务共同加权获得。Zhu队在视频事件识别子任务上,采用了基于时序偏移模块的卷积神经网络架构,针对视频数据量大、视频长度长短不一(1s-1个半小时)、样本标签分布不均匀等问题,采用包括自适应关键帧提取、时空长时池化、知识迁移、多损失函数联合优化等策略来学习鲁棒视频特征表达并进行多尺度推断,实现更好的事件分类。在物体检测识别子任务上,采用了基于耦合深度神经网络的目标检测框架,针对目标尺度变化大、形状变化不规则、小目标等关键问题,采用了包括可形变卷积、层级精细定位、数据增强、多尺度训练和测试、多维度贝叶斯概率关系图推断等优化策略实现更精准的物体定位。在开集场景分类子任务上,采用基于耦合注意机制和残差连接的卷积神经网络架构,针对未知类所导致的验证集和测试集准确率相差巨大这一核心问题,探索视频、场景、物体之间存在的内在关联,基于视频关键帧构建场景识别类外类作为背景样本对网络模型参数进行学习优化,在推断过程中采用多尺度测试、多维度贝叶斯概率图推断等策略提升预测精度。在时间和设备有限的情况下,最终综合结果相比于第二名高了1.3个百分点。
据悉,本次「VideoNet视频内容识别挑战赛」是由复旦大学、计算机学会CCF ChinaMM和极链科技联合主办,参赛队伍超过360支,其中不乏来自中科院、北京大学、中国科学技术大学等顶尖高校以及来自阿里巴巴、华为、腾讯、京东、大华等众多知名企业队伍。亚军和季军分别由北京大学团队和阿里巴巴团队获得。