基于知识的跨媒体信息搜索技术是一种新兴的信息处理技术,涉及自然语言处理与理解、图像视频处理与理解、语音处理与识别、数据库与数据挖掘、模式识别、人工智能、机器学习、知识科学等众多学科,是非常复杂、富有挑战性的研究新课题,方兴未艾。自动化所从2007年开始,承担国家863项目——跨媒体搜索关键技术研究及服务产品开发,建立了便于计算的语义网知识库和概念本体知识库,实现知识库的自动构建与更新,取得新的突破。这也是实现基于知识的跨媒体搜索引擎的高性能和高效率的一项关键技术。

在近几年的研究中,自动化所深入研究了一系列跨媒体搜索相关理论及关键技术,主要包括:研究并提出了一个统一的跨媒体智能搜索表示框架;研究并提出了一种综合多种特征信息的针对互联网文本、图形、图像、视频的高效自动标注算法;研究并提出了一种语义特征知识库的自动构建与更新方法,在此基础上建立了一个面向智能化跨媒体搜索的大规模语义特征知识库;研究并提出了一种在领域知识引导下,结合启发式规则、机器学习和查询扩展的查询问题理解方法;针对Web跨媒体搜索,综合考虑文本信息、图像和视频信息的融合需求,研究并提出了一种基于知识的跨媒体多信息融合算法;研究并提出了一种海量跨媒体数据的存储和智能处理方法;结合人工智能、知识工程、计算机视觉以及模式识别等领域的成果,研究并建立了一种基于语义知识的智能化跨媒体搜索机制,在此基础上设计并实现了一个交互友好的Web多媒体查询子系统;设计并实现了一个基于云计算平台的网页爬取、分析、分类、索引和检索系统,收集亿级的网页数据、百万余图片、视频数据,形成了一个大规模的高质量多媒体信息库;设计并实现了一系列文本挖掘与处理分析技术(分词、词性标注、命名实体识别、集成型异构Web文本信息抽取与融合、领域术语抽取、事件抽取、关系抽取等),为建立领域知识库提供了有效手段,并构建了面向电子商务、智能交通、教育、社会与经济安全的领域知识库,每库知识超过100万条;在领域知识的引导下,融合查询扩展技术、基于增强型联想记忆模型的语义特征空间技术、特征分类和聚类技术,研究并提出了一种集成化的语义特征联想算法。

目前,该项研究已申请发明专利9项(其中已授权专利2项,已受理专利7项);申请软件著作权4项(其中已授权软件著作权4项);在国内外相关重要核心学术期刊、会议上发表高质量学术论文62篇(其中15篇论文被SCI索引,42篇论文被EI索引)。

不仅如此,研究所还在成果应用方面进行了初步探索,已上述理论成果应用于工程实践,成功研制了一个集成跨媒体自动标注与索引、语义特征知识库自动构建、查询问题理解、多信息融合、海量信息智能处理等多种关键技术的垂直搜索服务平台架构HiSearch。在此基础上,课题组设计并实现了一系列面向具体行业的搜索服务示范系统及平台。其中部分服务平台已对外提供开放式服务,并得到大量的正面用户反馈。

跨媒体搜索具有巨大的市场前景和广泛的用户需求。基于知识的跨媒体搜索关键技术研究及服务产品的研发将使我国在下一代智能化搜索引擎的国际竞争中处于前沿水平,将为我国实现信息领域的跨越式发展提供理论与技术支撑。该项技术的发展能有效带动智能搜索相关技术的研究与综合集成,在电子商务、教育、旅游、智能交通、军事、国家安全等重大应用领域具有重要的产业价值。

在未来五年中,自动化所将在目前跨媒体搜索相关研发成果的基础上,完善相关关键技术与平台,并进一步与电子商务、教育、旅游、交通、社会与经济安全有关企业或国家部门开展合作,推动我国智能产业的形成与发展。

附件: