近日,中科院自动化所\北京汉王科技有限公司研制的“多字体大字符集汉字、表格识别方法与系统(汉王文本王4.5版)”通过鉴定。该项目在多字体大字符集简繁混排、中英文混排、表格的识别及复原方面取得重大突破,整体居于国际领先水平。

    “多字体大字符集汉字、表格识别方法与系统”目前可以识别宋体、仿宋、楷体、黑提、魏碑、箓书、箓变、圆体、行楷、综艺等多种字体,并支持多种字体混排,可以识别简体GB2312-80的全部一、二级汉字、繁体一级汉字和常用香港汉字等1万多汉字,工整字印刷体识别率已能达到99%以上。此外,该系统还能准确分析识别及精确复原表格,精确识别原版面格式,准确恢复文本原貌,导出ACDSee图文索引,实现图片快速检索,还具备了可提取公文红色批注和红章的彩色图像分色技术。这些技术在国内外公开发表的文献中未见报道,具有相当的新颖性和前沿性。

    “多字体大字符集汉字、表格识别方法与系统”是在汉王公司十几年的OCR技术研究工作基础上结合广大用户文档录入的迫切需求开发成功的。该系统使用简单、功能强大、识别率高,从使用者角度出发的人性化设计是复杂工作变得简单,大大提高了工作效率。

附件: