Page 63 - 新时期档案管理创新理论及实践
P. 63
第二章 档案管理与人力资源整合研究
(一)文字识别技术的发展
1. 西文识别技术的发展
在 OCR 技术中,印刷体文字识别是开展最早、技术上最为成熟的一个。早
在 20 世纪 20 年代末期德国科学家最早取得了光学字符识别的专利。西方国家为
了将大量报章杂志、文件材料和票据表格等纸质材料输入计算机进行信息处理,
从 20 世纪 50 年代就开始了西文文字识别技术的研究。随着信息技术的飞速发展
与研究人员的不断探索和完善,西文文字识别技术现已逐渐渗透于各行各业。
2. 中文识别技术的发展
第一,中文印刷体识别技术的发展。与印刷体西文文字识别相比,汉字的
印刷体识别技术的研究是在字母和数字的印刷体识别基础上发展起来的,发源于
20 世纪 60 年代。60 年代中期,BIM 公司的工作人员发表了首篇关于印刷体汉字
识别的论文,在这篇论文中他们利用简单的模板匹配法,识别了一千个印刷体汉
字。从 70 年代以来,日本研究人员在汉字识别方面做了许多探索和发明,其中
比较著名的系统有 70 年代东芝综合研究所研制的可以识别两千个独立印刷体汉
字的识别系统;80 年代早期,日本武藏野电气研究所研制的可以识别两千三百
个连续汉字的识别系统,代表了当时汉文 OCR 识别的最高水平。此外,日本的
松下、富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都
采用基于 K-L 数字转换的计算方法,使用了大量专用设备,甚至有的相当于大
型机,价格不菲,所以并没有得到普及和推广。
印刷体的中文识别自 20 世纪 80 年代中期规模发展以来,清华大学、中科院、
沈阳自动化研究所等一众单位分别研制并开发出了可以量产的印刷体中文 OCR
识别系统。尤其是由清华电子工程系研制的清华文字识别产品和由汉王开发的尚
书文字识别产品,它们占据着 OCR 技术的领先地位,并拥有最多的 OCR 客户,
代表着印刷体中文 OCR 技术的未来发展趋势。目前,印刷体中文识别技术已经
从简单的文字识别逐渐发展到了表格的自动识别、自动输入的研究阶段,图片文
字混合、各种语言混合下的内容提取、语义理解,各种卡片、票据的识别和历史
文献的识别等都逐渐开展起来。多种相关的识别系统如雨后春笋般应运而生,如
紫光文通推出的名片识别系统和慧视屏幕文字图像识别系统等。这些新的识别系
统的出现,标志着印刷体中文识别技术的应用领域得到了扩展。
第二,中文手写识别技术的发展。中文手写识别由于信息的获取形式不同,
53
53

