【科技日报】“多模态自然语言处理研讨会”聚焦多模态建模与学习方法----中国科学院自动化研究所

新闻中心

媒体扫描

【科技日报】“多模态自然语言处理研讨会”聚焦多模态建模与学习方法

发布时间: 2020-11-16

【字体：大中小】

　　记者获悉，日前在国际自然语言处理与中文计算会议 (NLPCC 2020)上, 第一届“多模态自然语言处理研讨会”举办。

　　多模态已成为新闻报道和信息交流的主要呈现形式，多模态自动摘要技术，旨在利用计算机自动实现从多个模态的信息中压缩生成摘要的过程，可以广泛应用于新闻推送和电商推荐等多个领域。

　　在本次研讨会中，来自中科院自动化所的研究员张家俊介绍其所在的课题组近年来在多模态摘要方法和评价等方面的研究进展。重点介绍了异源多模态摘要生成的研究方法变迁：从抽取式方法到生成式方法，再到目前融入多模态注意力机制的图文式摘要生成方法等。同时，张家俊也介绍了多模态自动摘要的自动评价方法: 综合考虑文本和图片重要性以及文本图片相关性更加贴近人工打分。

　　预训练模型的出现，使自然语言处理由原来的手工调参、依靠机器学习专家的阶段，进入到可以大规模、可复制的大工业施展阶段。此阶段基于预训练模型+微调机制，具备很高的可扩展性，展现出很高潜力。而当前研究也从单一语言扩展到多模态。

　　微软亚洲研究院的高级研究员、博士段楠介绍了多模态预训练模型的最新研究进展。他首先回顾了典型的预训练模型。随后，重点介绍了3种最新的多模态预训练模型：Unicoder主要应用于跨语言的语言理解和生成任务；Unicoder VL专注于视频语言任务，对视频片段和对应的自然语言描述进行联合建模；CodeBERT则关注在代码语言任务。段楠也和与会学者一起讨论了当前多模态预训练的问题和可能的未来方向。

　　“AI+艺术是一个跨界领域。艺术家的想象力往往启发着科学家的创造力，而在AI时代，艺术家用人工智能机器学习相关技术来创作艺术，表达自己的想法和概念，设计师用神经网络模型创造自己的设计工具和助手。”

　　清华大学未来实验室博士后高峰分享了AI技术在艺术与设计领域的创新性应用。其团队开发的道子智能绘画系统，利用计算机将自然图像以风格迁移的方式转变成艺术图像，根据所得艺术图像进行水墨画绘作，实现技术与艺术间的跨界融合。高峰也介绍了道子在服装设计、工业设计、装置艺术等领域的探索成果。

　　多模态智能分析是近期的研究热点。来自北京航空航天大学的教授刘偲围绕视觉和语言的交互介绍两方面的内容进行了分享。她首先介绍了视觉关系检测的研究，包括人-物关系检测，人-物关系分割，视频关系检测等方面的内容。其次，她指出视觉指代表达和指代分割，对于智能机器人和交互式图像编辑等实际应用有重要意义。传统的视觉指代表达方法采用两阶段式架构，模型复杂且速度受限，而传统的指代分割方法聚焦于多模态特征融合，缺乏利用语言信息进行上下文建模和推理的能力。在本次讨论中，她给出了针对性的解决方法。

　　对话系统一直是自然语言理解领域一个重要的研究内容，它可以使人们更便捷的与机器进行交互，而多模态的对话系统是非常重要的一个研究方向。

　　平安寿险AI研发团队的博士杨海钦，分享了多模态对话系统在平安人寿各种场景的应用，包括保单回访服务和视频柜员客服等。在本次讲座中，杨海钦重点介绍了多模态对话系统的核心和创新技术，实际部署经验以及如何应用该系统来降低运营成本，同时增加用户体验。

　　同时，京东AI研究院NLP算法科学家、博士吴友政也作了“智能人机交互及其应用”的主题分享。

原文链接：http://www.stdaily.com/index/kejixinwen/2020-11/02/content_1038837.shtml

附件：