Page 235 - 新时期档案管理模式理论与发展创新
P. 235
第八章 企业档案数字化建设
(4)OCR 处理
目前,OCR 技术已经相当成熟,一般扫描仪都自带 OCR 软件,使用也很方
便。然而 OCR 的识别准确率往往不尽如人意,由此影响检索效果。而依靠人工
纠正文稿中的错字又非常麻烦。因此,提高 OCR 识别率是档案数字化中比较重
要的问题。其实,只要注意以下几点,就可以明显提高 OCR 识别率:
一是选择适当的扫描分辨率。太低的扫描分辨率往往会造成 OCR 识别率的
下降,太高的分辨率会使图像文件过于庞大,且降低识别的速度。在实际操作中,
操作人员可通过查看 OCR 识别后生成文本中的红色错字数量(如小于 3%),判
断其可接受程度,确定是否采用该分辨率扫描并进行 OCR 识别。
二是尽量采用黑白二值模式进行扫描。用扫描仪扫描文件时,通常 OCR 识
别接受灰度或黑白二值模式,不接受彩色模式。如果文稿印刷质量好,可采用灰
度模式,否则,宜采用黑白二值模式。扫描时可手工调节黑白阈值的大小,如黑
白二值图像上文字轮廓残缺,则适当增加阈值;若文字轮廓线太粗,则表示信息
冗余较多,可适当减少阈值。这样调节后形成的黑白二值扫描图像,可以达到较
佳的 OCR 识别效果。
三是在进行 OCR 识别时注意文字的倾斜校正。OCR 识别允许文稿有细微的
倾斜,但是过度倾斜会影响识别率。校正方法是,点击扫描软件上的倾斜校正按
钮,识别软件会自动将图像校正,再进行 OCR 识别。
四是对稿件进行识别前的预处理。去除文稿上的杂点和图片,因为杂点会干
扰文字识别,图片是不能被识别的,且会影响 OCR 的文字切分。针对文稿中出
现分栏的情况,建议用手动设定各栏区域,即用多个框分别选中要识别的文字,
然后进行 OCR 识别。
五是采用适当的识别方式。简体和繁体混排,中英文混排的文稿往往识别率
较低。如果文稿中简繁体、中英文是分块状分布的,可以用图像处理软件,将不
同的文字块剪辑成同类文字块合并的文件,然后分别对不同文字进行 OCR 识别。
(5)扫描登记
认真填写纸质档案数字化转换过程交接登记表,登记扫描的页数,核对每份
文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具
体原因和处理方法。
223

