Page 158 - 档案统计管理工作创新理论与应用
P. 158
档案统计管理工作创新理论与应用
第一,揭示了纸质档案数字化的实质。即在保证档案信息原始真实的情况下,
转换其记录方式和载体形式。就纸质档案而言,就是将纸质载体上的档案内容转
换成以数字形式记录的信息,并能够被计算机识读处理。
第二,强调保持档案原貌。将数字化加工后形成“数字图像或数字文本”修
改为“数字图像”,删去了“数字文本”,说明数字化只是变换记录方式和载体,
档案信息内容和表达方式并没有发生变化。运用 OCR 识别(字符识别)纸质档
案最终生成文本,不能保持档案原件的排版格式、签名、印章等信息,只能体现
档案内容本身,在一定程度上破坏了档案原稿的真实性。但需要说明的是,字符
识别依然是纸质档案数字化工作以及最终实现全文检索不可或缺的步骤。
第三,明确了纸质档案数字化的工作内容包括数字化加工和建立联系。与《旧
规范》定义相比,这一定义尤其强调“联系”的重要性。这个联系有两层含义:
一是保持纸质档案的内在联系。具体来说是在数字化前处理时规范目录内容,目
录数据库要符合著录要求;二是目录与图像的关联,具体来说即做好数据挂接工
作。数据库的建立将档案的数字化副本有机联系起来,不再是单一的个体。
根据处理深度,档案数字化可以分为目录数字化和全文数字化。目录数字化
即通过著录标引、信息录入,建立档案目录数据库,其重点有两点:一是数据规
则要符合档案著录要求,二是数据库结构设计要科学合理。目录数字化是档案数
字化的基础环节,也是档案信息化建设最早、最直接获得的成果。中国自 20 世
纪 80 年代提出建立档案目录中心起,至今已建立起中央、省和地市级的各类目
录中心,极大地方便了档案检索和利用。全文数字化是指通过扫描、录入等手段,
把档案实体所承载的信息转化成数字图像、文本等计算机可识别的格式,建立档
案全文数据库。为解决直接扫描无法检索和 OCR 识别准确率不高的问题,目前
较为普遍的方法是制作双层 PDF。即在同一个 PDF 文件中,上层是数字图像,
下层隐藏着识别出的文本,这样一来,既能实现全文检索,又能够保持纸质档案
的真实面貌。因此,这项工作的成果既有数字图像,也包括形成的档案目录。
二、纸质档案数字化体系构建
纸质档案数字化体系构建是有效开展纸质档案数字化工作的基础,本部分以
实践经验与相关研究为依据,确定了一套较为完备的纸质档案数字化体系,在适
应档案部门利用需求的情况下,亦能依据档案部门在纸质档案数字化时的实际情
况进行合理配置,由加工体系、存储体系与安全体系三部分构成。
144

