829日,在第25届计算语言学国际会议COLING2014颁奖仪式上,自动化所模式识别国家重点实验室自然语言团队发表的论文"Relation Classification via Convolutional Deep Neural Network"(作者:曾道建,刘康,来斯惟,周光有,赵军)获得大会最佳论文——IBM Watson Best Paper Award。专家认为这是该领域一项开创性的工作,将对关系分类这一任务产生重要影响。 

  互联网上存在大量的非结构化电子文本,如新闻、博客、电子邮件通信、政府文件、聊天记录等。如何帮助人们理解这些数据?普遍的观点是通过注释语义信息,把非结构化文本变成结构化文本,其中的关键技术之一是实体语义关系分类。传统的关系分类主要采用有监督的方法,研究重点在于找出更具区分性的特征。传统的特征提取凭借经验进行,依赖于现有的自然语言处理工具(词性标注、句法分析、实体识别等)。然而,对于大规模网络信息而言目前的自然语言处理工具性能有限,同时传统方法也会导致处理过程中的误差累积。针对上述这些问题,该获奖论文提出了基于卷积深层神经网络(Convolutional Deep Neural Network)的文本语义特征学习方法;利用卷积深层神经网络,自动学习表征实体语义关系的词汇特征、上下文特征以及实体所在的句子文本特征等;相对于以往关系分类方法,该方法不需要利用NLP处理工具(POSNERParsing等)抽取特征,极大的改善了特征抽取过程中多个处理环节所带来的误差累积问题。实验结果表明,相对于已有state-of-the-art方法,该方法在关系分类任务上性能有显著提升。

  COLING会议是计算语言学领域的顶级国际会议,由国际计算语言学学会(the International Committee on Computational LinguisticsICCL)主办,每两年一届。本届会议于201482329日在爱尔兰的都柏林召开,世界各地近700人参加了会议。这次会议共收到691篇论文,其中录用口头报告论文139篇,录用率为20.1%。由全世界几十位权威专家组成的评奖委员会通过投票评出了两篇最佳论文,自动化所论文得票数名列第一,得到了国际同行的广泛关注。 

  COLING2014最佳论文奖由IBM Watson研究中心冠名赞助,该中心于2011年推出了一台能快速回答自然语言复杂问题的机器——Watson,并在美国著名智力问答竞赛节目《危险边缘》中战胜人类选手。 

附件: