Page 122 - 新时期档案管理理论与实践探析
P. 122

新时期档案管理理论与实践探析
                    Analysis of Theory and Practice of Archives Management in the New Era


            现海量存储,因此实体馆藏基本上对档案鉴定没有直接影响,档案利用才是档案
            鉴定的主要目的。档案利用是包括文件形成者和社会公众在内的所有用户利用档
            案的过程,利用时在必须保证档案固有特征的同时提高档案的利用效率,即保证

            用户在最短的时间内获取与之目的相符的最多档案,所以既要确保用户所有的档
            案包含在档案鉴定的结果范围内,又要缩小档案基数,那么如何在缩小基数的同
            时尽可能保全用户所需的档案呢?目前,针对档案鉴定的人员主要有行政官员、
            文书工作者和档案工作者这三类,鉴定的过程也紧紧围绕公正、现实意义等展开,

            具体如何鉴定并没有统一的看法,仍存在一定的争议。档案鉴定中矛盾的产生源
            于对鉴定的看法不同,导致最后的结果也不尽相同,势必会影响部分档案的保留
            与否。如若想要将这部分档案所受的影响降至最低,只需保留所有人的意见。由
            于档案利用最终是面向用户的,用户的意见也应包括在内,而用户的意见在基于

            自身需求的条件下产生,需求具有不确定性,未来的需求更是无法预料,导致收
            集用户意见无法实现。综合来看,最好的决策是弱化传统档案鉴定的结果,由相
            关人员以评级的方式进行处理。针对传统的纸质档案,这种方法具有非常高的成
            本,但在电子文件方面,则并不难实现。在档案鉴定的前期,只需利用部分档案

            作为训练样本,由不同的人员根据不同的鉴定原则筛选出相关档案,之后在数据
            挖掘过程中,由计算机根据这些档案的特点对日后需要鉴定的档案进行自主处理
            即可,为保证结果的科学合理性,也可由相关人员辅助参与,完成档案的鉴定工作。
                (三)档案数据挖掘的设计原则

                1. 数据前提原则
                数据挖掘虽然一定程度上能够解决异构数据所带来的问题,但并不代表数据
            挖掘对数据没有任何要求。数据前提原则在档案数据挖掘上具体表现为以下几点:
            数据量满足数据挖掘的要求,具体的最小数据量并没有在相关文献中提到,根据

            scikit-learn(Python 平台的一个数据挖掘开源库)开发组的建议,数据挖掘的最
            小数据量为 50,显然数据量越大,最后的结果越令人信服;保证所用数据的质
            量,即数据能够反映自身的信息,这一点在档案数据挖掘上尤为重要。由于档案
            管理的相关要求,很多机构都会对纸质档案进行数字化,但数字化产生的文档不

            能用于数据挖掘,因为数据挖掘所用的是文档中的文本数据,而数字化文档经过
            OCR 后并不能还原最初的文本数据,经常出现乱码、错别字等情况,因此档案
            数据挖掘的所用的数据必须来自含有正确数据的电子文件(下文所用的文件、文



            ·108·
   117   118   119   120   121   122   123   124   125   126   127