76日下午,美国罗切斯特大学计算机科学系罗杰波教授应邀访问了自动化所,并做了“视频与语言”的学术报告。报告会由王亮研究员主持。 

  在此次报告会中,罗杰波教授与自动化所师生分享了他在计算机视觉中多模态理解的研究成果和心得。报告介绍了计算机视觉与数据挖掘中的一些经典问题和视频理解的问题背景,并从视觉行为分类问题开始,介绍了团队在CVPR 2009提出的一个行为识别模型,该模型是当时第一个做实际视频识别任务的,其中提出的UCF11数据集是目前广泛应用于视频行为识别学术研究UFC101的前身。报告介绍了无监督下自然文本与视频行为的匹配模型,该模型利用经典的CRF方法建立视频中区域和文本关键词的联系;报告介绍说,其团队在CVPR 2016上提出的利用语义注意机制解决图像描述的模型,这一模型首先利用大量web图像描述数据,预先训练了一个图像语义检测器。通过CNN作为图像编码器,LSTM作为文本解码器,以及语义注意模型机制,最终提出的模型在当时Microsoft Coco竞赛上取得了第一名的成绩;其团队发布的TGIF视频描述数据集,与之前的视频描述数据集相比,该数据集在视频数量和视频内容的动态性上都有了较大的优势;报告中,罗杰波教授总结了当前人工智能的发展水平,并对未来人工智能的发展做了进一步的预估和分析。 

  报告让大家对视频与语言的多模态问题了有了进一步的理解,也给大家今后的研究方向和方法带来了新的启发。 

 

 

附件: