自然语言处理(NLP)被誉为人工智能皇冠上的明珠,是计算机科学领域与人工智能领域中的一个重要方向,在应用方面有着广阔的空间。自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。那么,如何有效的学习词汇表示和抽取信息和关系就显得尤为重要。
日前,自动化所自然语言处理组在多模态词汇表示模型、大规模关系抽取、时间检测和事件识别方面取得了一些新进展。
1. 基于动态融合方法的多模态词汇表示模型
相比基于文本的模型,多模态模型可以学习到更好的词汇表示。之前的多模态词汇表示模型平等地对待不同模态的信息。但是,不同模态的信息对于不同类型的词汇的贡献程度是不同的。比如对于抽象词如“快乐”,文本模态对词义的贡献要大于感知觉模态的贡献;而对于具象词如“桌子”,文本和感知觉模态都会极大地影响词汇的含义。这启发团队成员建立可以根据不同类型的词汇对不同模态的信息加以区分的多模态词汇表示模型。因此,团队成员(王少楠、张家俊、宗成庆)提出了三种动态融合机制,可以分别针对模态、词类和词汇对不同模态赋予不同的权重。由于标准答案并不为人所知,因此,团队成员提出可以通过间接利用相关或相似词对作为弱监督信号,让模态在学习词汇是否是相关词汇的过程中自动学习不同模态的权重。
在多个词汇相关相似性数据集上进行了测试,结果表明动态融合方法可以极大地提高词汇表示的质量。定性的结果分析表示,该模型可以针对不同类型的词汇赋予不同的权重。该研究表明,利用计算模型对数据的规律进行挖掘可以帮助认知科学的相关研究。
2. 基于人脑成分语义表征的多模态词汇表示和组合模型
已有研究表明多模态模型在学习词汇表示方面可以得到相比单模态模型更好的效果。多模态词汇表示模型指利用多种模态的信息(如视觉,听觉,文本等)去学习词汇的语义向量表示。但是,多模态词汇表示中到底编码了什么信息,它们在什么方面可以超过单模态的模型,以及不同模态的语义组合过程有什么区别和联系,这些问题目前都没有清晰的认知。由于多模态模型的研究最初是受到人脑概念表征启发而来,因此团队成员(王少楠、张家俊、宗成庆等)假设与人脑的词汇表征进行相关性研究来回答上述问题。
团队成员提出一种简单的基于人脑成分语义表征的相关性方法。首先通过与人脑成分语义表征进行相关性分析,调查了不同类型的词汇表示中蕴含了什么样的信息。基本假设是,如果两个不同语义空间的距离矩阵具有高相关性,那么这两个空间的语义向量编码了相似的信息。因此,结果得到的高相关性意味着计算模型中更多的编码了这种属性信息。接着将计算模型得到的词汇语义表征映射到人脑的成分语义表征空间中,去探讨组合模型究竟如何组合不同类型的词汇的属性。为了解释不同类型的短语组合模型在组合词汇向量的过程中发生了什么,团队成员设计了一种映射方法以直观的比较不同类型的组合模型。这个方法的基本思想是通过将词汇和短语向量映射到可解释的成分语义空间中,来观察词汇在组合成短语的过程中不同的属性是如何变化的,以此解释不同类型组合模型的工作机制。
该工作探讨了自然语言理解中最基础的问题,就是如何表征词汇的含义以及如何将词汇的含义进行组合构成更大粒度文本单元的含义。这是结合最新的认知心理学的研究成果和自然语言处理任务的一个初步尝试。
3. 基于强化学习的大规模关系抽取
关系抽取是自然语言处理领域的一个重要任务,它致力于从文本句子中抽取关系事实,即关系及其对应的两个实体。传统的有监督关系抽取方法虽然能在关系抽取任务上取得很好的效果,但是它们都依赖人工标注的数据,因此难以扩展到大规模的场景中。近年来学者提出使用弱监督的方法,利用现有大规模知识库对文本进行自动回标,可以容易的得到大规模的弱监督数据。弱监督的数据以包为单位,一个实体对的包包含了所有同时提及这两个实体的句子,因此存在噪音。弱监督的数据中单个句子没有关系标签,而包有直接的关系标签。因此传统的有监督模型无法直接应用到弱监督数据中。
为了突破传统有监督方法无法在弱监督数据中应用的限制,团队成员(曾祥荣、何世柱、刘康、赵军)提出了一种利用强化学习在弱监督数据中进行句子级关系抽取的方法。该方法首先对一个包中的所有句子进行关系抽取,然后根据“expressed-at-least-once”假设用包中所有句子所抽取的关系来预测包的关系:如果包中所有句子的关系都是NA关系,则预测包的关系为NA,否则将包的关系预测为非NA关系类别中概率最大的那个。接着将包的预测结果与标注结果进行比较,从而得出奖赏值,最后利用该奖赏值对句子关系抽取器进行训练。在公开的New York Times数据集的两个不同版本上进行的实验表明,该方法可以有效提升句子关系抽取器的性能。相比于基线方法,本文提出的方法取得了13.36%的提升。同时,该项工作将强化学习引入到关系抽取任务中,为如何进行大规模的关系抽取提供了新思路,并在自然语言处理的其它任务(比如开放式关系抽取、事件抽取等)中具有很大的应用潜力。
4. 基于门控多语注意力机制的事件检测
事件检测和识别是信息抽取的一个重要任务,它致力于从非结构化文本中检测出事件触发词并识别出其触发的事件类型。目前这项任务的大多数方法仅仅专注于从单一语言中提取线索,忽略了其他语言所蕴含的大量信息。这些单语方法中存在的数据稀缺性以及单语歧义性问题,会在一定程度上影响事件的检测识别效果。为了缓解单语方法中的这些内在问题,综合考虑多语信息对单语方法进行改进和扩充是一种相对来说行之有效的解决途径。
为了联合多语信息进行事件的检测与识别,团队成员(刘健、陈玉博、刘康、赵军)开发出一种多语方法(称之为门控多语言注意(GMLATT)框架)来同时处理前述两种问题。该方法采用上下文关注机制,利用多语数据的一致性信息缓解了数据稀缺的问题;同时提出了跨语言的门控注意力机制,利用多语数据所蕴含的互补信息,一定程度上缓解了单语歧义的问题。此框架首先采用机器翻译获得单语数据所对应的多语平行语料,然后利用无监督方法学习得到双语数据的词汇对齐信息。在此基础之上,在每种单语数据中利用注意力机制对单个句子的文本内容进行建模,不同的词汇依据其指示性被给予不同的权重,因而可以学习得到更具表示性的语言特征。这些特征大大扩充了单语线索,一定程度上缓解了单语方法所面临的数据稀缺性问题。为了融合多语线索,此框架通过门控多语注意力机制对多语置信度进行建模。对于每种语言,采用门控神经网络得到其置信权重。通过平衡多语的组合系数,把多语特征融合到一起。多语融合特征中涵盖了多语互补性信息,从而一定程度上缓解了单语方法中的单语歧义性问题。该方法在ACE 2005的数据集上进行实验验证,结果表明这种方法优于当前的处理方法。同时,该项工作所提出的门控多语言注意框架为如何联合多语信息辅助单语任务提供了新的解决思路,并且在自然语言处理的其他任务(比如命名实体识别,实体关系消歧,实体关系抽取)中具有极大的应用潜力。
团队简介:模式识别国家重点实验室自然语言处理组主要从事自然语言处理基础、机器翻译、信息抽取和问答系统等相关研究工作,力图在自然语言处理的理论模型和应用系统开发方面做出创新成果。目前研究组的主要方向包括:自然语言处理基础技术(汉语词语切分、句法分析、语义分析和篇章分析等)、多语言机器翻译、信息抽取(实体识别、实体关系抽取、观点挖掘等)和智能问答系统(基于知识库的问答系统、知识推理、社区问答等)。其研发的多语言机器翻译系统已覆盖10多种语言对,并已在国家相关部门得到实际应用。同时,研究组研发的汉语自动分词系统、词性标注和实体识别一体化工具、句法分析器、百科知识服务平台和餐馆美食问答系统等,已在中国大百科全书出版社等国家多个企事业单位得到实际应用。
参考资料: