Page 10 - 事业单位档案数字化管理与实践
P. 10
Digital Management and Practice of Archives in Public Institutions
事业单位档案数字化管理与实践
换成以数字形式记录的信息,并能够被计算机识读处理。
二是强调保持档案原貌。将数字化加工后形成“数字图像或数字文本”修改
为“数字图像”,删去了“数字文本”,说明数字化只是变换记录方式和载体,
档案信息内容和表达方式并没有发生变化。运用 OCR 识别(字符识别)纸质档
案最终生成文本,不能保持档案原件的排版格式、签名、印章等信息,只能体现
档案内容本身,在一定程度上破坏了档案原稿的真实性。但需要说明的是,字符
识别依然是纸质档案数字化工作以及最终实现全文检索不可或缺的步骤。
三是明确了纸质档案数字化的工作内容包括数字化加工和建立联系。与《旧
规范》定义相比,这一定义尤其强调“联系”的重要性。这个联系有两层含义:
一是保持纸质档案的内在联系。具体来说是在数字化前处理时规范目录内容,目
录数据库要符合著录要求;二是目录与图像的关联,具体来说即做好数据挂接工
作。数据库的建立将档案的数字化副本有机联系起来,不再是单一的个体。
根据处理深度,档案数字化可以分为目录数字化和全文数字化。目录数字化
即通过著录标引、信息录入,建立档案目录数据库,其重点有二:一是数据规则
要符合档案著录要求,二是数据库结构设计要科学合理。目录数字化是档案数字
化的基础环节,也是档案信息化建设最早、最直接获得的成果。中国自 20 世纪
80 年代提出建立档案目录中心起,至今已建立起中央、省和地市级的各类目录
中心,极大地方便了档案检索和利用。全文数字化是指通过扫描、录入等手段,
把档案实体所承载的信息转化成数字图像、文本等计算机可识别的格式,建立档
案全文数据库。为解决直接扫描无法检索和 OCR 识别准确率不高的问题,目前
较为普遍的方法是制作双层 PDF。即在同一个 PDF 文件中,上层是数字图像,
下层隐藏着识别出的文本,这样一来,既能实现全文检索,又能够保持纸质档案
的真实面貌。因此,这项工作的成果既有数字图像,也包括形成的档案目录。
(三)数字档案与档案数字化副本
在档案数字化过程中,需要辨明的概念还有数字档案和档案数字化副本。部
分省市出台的管理办法将档案数字化的成果叫作“数字化副本”,即传统纸质档
案通过数字化转化后形成的数据,包括数字图像和数字文本。还有学者将档案数
字化后形成的成果、因保管利用形成的档案副本统称为“档案数字副本”。这里
采用的是前一种说法,下文所指的纸质档案数字化副本就是纸质档案数字化加工
后形成的数字图像。国家档案局 2019 年底新发布的行业标准《纸质档案数字复
·2·

