一、OCR的历史
OCR(Optical Character Recognition)的概念诞生于1929年,由德国的科学家Tausheck首先提出,并且申请了专利。几年后,美国科学家Handel也提出了对文字进行识别的想法,但这种梦想直到计算机诞生后才变成为现实。现在这一技术已经由计算机来实现,OCR的意思也就演变成为利用光学技术对文字和字符进行扫描识别,并将其转化为计算机内码。
根据资料记载,第一个OCR软件是在1957年开发的ERA(Electric Reading Automation)。它是基于窥视孔方法实现的,识别的速度是每秒120个英文字母。在此以后,世界范围内广泛地进行着OCR技术的研究和开发工作。从OCR技术的发展历程来看,可分为三个阶段:
第一阶段:第一代OCR产品出现于60年代初期,NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。最早的OCR产品应该是IBM公司的IBM1418。它只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。60年代末,日立公司和富士通公司也分别研制出各自的OCR产品。
第二阶段:第二代OCR产品是基于手写体字符的识别,前期只限于手写体数字的识别,从时间上来看,是60年代中期到70年代初期。IBM公司于1965年便在“纽约世界博览会”上展出了其OCR产品-IBM1287。第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公司也推出了同样的系统。到1974年,信函的分拣率达到92%~93%,并且广泛地应用在现实生活中,发挥着较好的作用。
第三阶段:第三代OCR产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别,例如汉字的识别。最先投入汉字识别研究的日本东芝公司,于1983年发布了其识别印刷体日文汉字的OCR系统-OCR-V595,其识别速度为每秒70~100个汉字,最高识别率达到99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作,经过不断改进,针对手写印刷体日文汉字的识别现在已经达到实际应用水平。
我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究;到1986年汉字识别的研究进入一个实质性阶段,取得了较大的成果。
二、中文OCR
进入信息社会后,计算机已经渗透到人们生活的方方面面,如何将大量的纸制文字信息快速准确地输入到计算机是我国实现信息化的一个技术"瓶颈",中文OCR系统使中文输入工作高速化、自动化及高准确度,为建立各种信息库提供了基础条件。我国政府从七五科技攻关计划开始到现在的863计划一直长期支持中文OCR的研发,是中文OCR技术进步的最重要推动力。从80年代中期开始,国内开始了中文OCR的研究热潮,到90年代中期,国内外共有10多家单位(包括汉王公司、国外的IBM、HP公司)相继推出了各自的中文OCR系统,达到可初步实用化的水平。
从中文OCR技术的发展来看,其研发与应用经历了如下几个阶段:
⑴印刷体单字体识别,支持国标一级汉字3755字、繁体5401字,简繁体和字体由用户指明,识别率在95%左右;
⑵印刷体多字体识别,支持国标一级汉字3755字,繁体5401字,简繁体由用户指明,宋仿楷黑四体混合识别,识别率在95%左右,对质量较差的印刷文稿的识别率会明显下降,印刷体表格的识别系统开始出现;
⑶多字体大字符集简繁混排、中英文混排识别,支持国标二级汉字6763字、繁体5401字、香港常用字等1万多字,识别字体扩充到常见的十多种字体,识别率在99%左右,对质量较差的印刷文稿的识别率有较强的适应性,脱机手写数字识别和印刷体表格识别系统进入实用化阶段;
⑷各种应用系统开始推出,如名片识别系统、汉王文本王、银行票据识别系统、增值税发票识别认证系统等。
但由于新世纪初中文OCR的识别率偏低,用户满意度低,几乎没有OCR的行业应用项目,随着国内信息化建设的进展,市场迫切需要解决多字体大字符集、中英文混排、简繁混排、表格识别的识别率和识别速度问题,版面的理解与还原问题,识别系统对各种应用需求的适应性问题以及用户使用的方便性问题。
三、汉王中文OCR
1、技术研究的总体思路
汉王中文OCR技术研究的总体思路是先突破关键技术,并采用软硬结合的方式,推进光电设备向专业应用发展,然后在零售市场、行业应用、技术授权方面面向用户推出实用化的应用系统。
(1)聚焦核心,突破关键技术
– 超大类字符集识别
从识别特征选择与变换、分类器设计及集成等方面解决汉字多字体、大字符集的识别问题;
基于SVM的语言分类器区分中英文;
高精度脱机手写体汉字、数字识别;
– 表格识别与还原
采用模糊直线拟合技术解决虚线、断线等问题。
– 复杂背景、复杂版面分析的理解与还原
报纸、杂志、票据、名片、证照、信封等;
视频图像中复杂背景下文字搜索与识别;
– 嵌入式OCR
克服空间小、CPU速度慢等条件的限制,实现在手机等移动终端中的应用。
(2)软硬结合,推进光电设备向专业应用发展
– 用于增值税发票识别、银行票据识别等的高速扫描仪
– 用于证照识别、名片识别等的专用小型扫描仪
– 用于车牌号码识别的嵌入式摄像设备
– 用于智能手机名片识别的摄像头改进
(3)多方推进,零售市场、行业应用、技术授权并举
– 零售市场
文本王、名片通、OCR录入工厂(海量文献自动录入系统)
– 行业应用
增值税发票识别、证照识别、银行票据识别、邮政地址识别、车牌号码识别、工业系统中OCR如:硅晶片OCR
– 技术授权
OCR SDK、扫描仪OCR捆绑版、智能手机嵌入式OCR识别
2、应用系统
在上述核心技术取得突破的基础上,汉王针对不同的用户需求在零售市场、行业应用、技术授权方面开发了实用化的应用系统。
"汉王OCR表格文字识别系统" :该系统是汉王OCR为扫描仪捆绑销售定制的普及版本,市面上70%以上的扫描仪都配有该版本,比较常见的子版本有“汉王OCR
“汉王名片通
“汉王复杂表格理解软件系统”:包括表格模板定义模块和表格识别模块,表格模板定义模块提供了灵活方便的界面,方便用户自定义各种表格模板;表格识别模块通过识别找到图像中的模板区域,按照模板的设置识别表格的填充内容,并将最终识别结果按照模板的设置有机地组织起来,便于进一步使用。表格模板定义模块和表格识别模块相互独立,通过模板文件互相关联。系统可以处理黑白、灰度、彩色图像文件,可以识别印刷体数字、印刷体汉字、自由手写体数字、大写金融数字、条形码等各种类型的内容。系统采用了模糊直线拟合技术,可以有效解决虚线、断线等问题;在表格识别算法中,利用表格线段的拓扑关系处理不同印刷批次之间的表格差异;在色彩提取时,采用色彩聚类法处理印刷或扫描造成的色彩偏差;在识别内容的预处理时,采用底纹分析法去除各种噪音的干扰;在手写金融数字的切分识别中,引入语义信息来指导切分,并针对手写体和印刷体分别采用不同的特征组合方法,集成多个核心来提高字符识别率和识别的可信度。此系统衍生出面向银行的“汉王银行票据识别系统”、面向金税工程的“汉王增值税发票识别认证系统”和面向金盾工程的“汉王OCR证照识别系统”,得到了很好的应用。
“汉王增值税发票识别认证系统”:1998年项目组了解到国家金税工程中防伪税控认证工作费时费力后,经过多方面的考证与分析,率先提出了通过高速扫描仪扫描并识别税票的各项要素的识别方案,从而能自动完成税票的解密(通过金税卡)和比对工作,大幅度提高认证的速度和效率。经过采集大量的现场税票票据进行分析后,项目组克服了实际票据倾斜、噪声污染、位置偏差较大及部分发票发淡等困难,设计实现了增值税票内文字的提取算法和强噪声条件下小字符集高识别率识别核心,并在此技术上开发出“汉王增值税发票识别认证系统”。该系统能够适应市面上的几乎所有高速扫描仪和平板扫描仪扫描的税票图像,经实际测试对票面良好的增值税发票整张识别率在90%以上(每张发票上均有160个字符需要识别,整张识别率是指发票上160个字符全部识别正确的比率),识别速度2秒/张,能够满足大量票据的自动准确录入需求;2001年“汉王增值税发票识别认证系统”和汉王高速扫描仪中标国税总局24省市金税招标项目,到目前为止项目实施情况良好,每年录入发票超过亿张,目前面向企业应用的版本的销量也已超过1万套。
“汉王文本王”:2002年开发成功“汉王文本王
“汉王OCR录入工厂系统软件”:是结合强大的网络功能实现流水线方式的数据加工系统,由客户端程序和服务器端管理程序两部分组成,客户端程序按照扫描、图像预处理、版面分析、识别、纵校、横校和版面还原保存七道工序进行操作;服务器端管理程序自动给各岗位分配任务、进行任务协调,并加入了科学的质量控制、岗位管理功能,使各客户端的任务既相互独立又形成完整、高效的生产流程。实际应用表明,流水线平均每人每班次生产10万字以上,整体差错量控制在万分之一以内,比手工录入的速度提高了5-8倍,录入质量和效率同步大幅度增长,为信息化建设提供了强大的数据加工方案。专家鉴定委员会一致认为:“汉王OCR录入工厂系统软件”是比较完善的信息资源加工工具,对图书、文献等信息资料的数字化建设,具有十分重要的意义,“汉王OCR录入工厂系统软件”生产效率高,实用性好,整体技术水平达到国际领先,同意通过鉴定。
"汉王邮政地址识别系统":由于国内邮政编码使用不规范,基于邮政编码的信函分拣技术在国内遇到了很大的困难,该系统实现了结合邮政编码识别和地址识别的信函分拣解决方案,包括按照预处理,手写信函与印刷体信函分类,版面分析,邮政编码识别,地址行分割与单字切分,单字识别,地址与邮编校对几个步骤。采用基于概率子空间的两类分类器区分手写信函与印刷体信函,采用聚类法进行行分割,采用动态规划方法进行单字分割,采用多分类器集成的单字识别方法,采用统计语言模型提高地址识别正确率。
“汉王嵌入式OCR系统”:该系统采用曲线拟合的非线性归一化方法,然后融合梯度方向特征和外轮廓差分特征,在此基础上采用两层分类结构。第一层分类采用部分特征分类方法,第二层分类采用LVQ4方法来做识别模板类中心的微调。识别字符集为国标GB2312-1980的二级6763汉字、繁体5401汉字、香港常用汉字,数字和英文字符,识别字体包括宋体、仿宋体、楷体、黑体、圆体、隶书、隶变、魏碑、行楷、综艺等常见字体。识别核心占用空间1兆字节,识别率在98%以上,在100兆主频的CPU上,每秒钟能识别40-50个字符,基本解决了嵌入式系统中识别字典和识别速度所受到的限制问题。在此基础上,成功的开发了利用手机、数码相机等信息终端系统实现对文本的识别输入和名片的识别管理等功能。
3、实施效果
汉王经过多年艰苦的自主创新,在光学文字识别多项关键技术取得突破的同时,成功开发出多个面向行业及通用市场的产品,这些产品都成为名牌产品,市场份额均居领先地位,在办公自动化、银行、税务、数字图书馆、邮政分拣等行业得到了广泛应用,同时带动了扫描仪、智能手机等相关行业的发展。
汉王OCR的项目成果使我国的OCR技术及应用走到了世界的前列,尽管IBM、HP、日立、东芝、夏普、NEC、理光等国外公司曾经巨额投入该领域,但是汉王的技术领先性迫使他们退出了竞争。
汉王OCR的技术路线是先突破关键技术,同时重视软硬件的有机结合,然后面向用户推出实用化的应用系统。从实施效果来看,这种思路非常适合现阶段我国软件产业的现状,并为推动我国自主知识产权软件的发展壮大做了有益的探索。
四、汉王OCR与当前国内外同类技术的比较
目前从事汉字识别技术研究的单位主要在中国大陆和台湾、新加坡、美国等地,公司主要有汉王科技、北京文通、台湾蒙恬、台湾力新和新加坡热卡公司。汉王公司率先推出多字体大字符集简繁混识的识别核心,能够识别常见的十几种字体及其变体,识别字符集包括简体中文6763字、繁体中文5401字、香港常用字等1万多字,各种字体的识别率都在99%以上。
在2000年CHIP新电脑杂志组织的6款中文OCR的横向测试评比中“汉王OCR新世纪版”获得14个单项中的11项第一名、3项第二名和总分第一名的优异成绩,同时参加评测的还有市场上所有中文OCR。
2001年开发成功的“汉王名片通
汉王OCR的行业应用系统"汉王银行票据识别系统"、"汉王增值税发票识别认证系统"、"汉王OCR录入工厂软件系统"、“汉王OCR证照识别系统”,都在应用部门的技术评测中得到认可。
在嵌入式OCR研究中,简繁混识的多字体大字符集汉字识别核心的识别字典已能压缩至
汉王OCR技术的项目成果已累计实现销售收入近3亿元,汉王公司已成为国内外文字识别系统零售产品、行业应用和技术授权的主要提供商。