Page 121 - 新时期档案管理理论与实践探析
P. 121

第四章  大数据在档案管理中的应用




             数据和元数据,档案原生的内容文本数据就是直接呈现在用户面前,为人眼所能
             直接看到的文本,档案的元数据为档案著录时进行高度概括能表现档案相关特征
             的数据,如主题词等。在档案信息检索时,检索的信息来源主要为元数据,而主

             题词等一些元数据很少进行著录,因此所检索的元数据类型十分受限,常用的以
             题名为主。一般情况下,由于题名反映的是档案的主体内容,并不涉及内容的细
             微之处,在用户的需求符合主体内容的情况下,检索系统能够返回准确的内容,
             当需求涉及的细微之处时,返回的结果往往差强人意。在此条件下,元数据的著

             录并不能满足所有的需求,所以有必要对档案的全文内容进行索引,并提取相关
             内容信息。在数据挖掘的前期准备中,文本的分词具有至关重要的作用,是数据
             挖掘的一个基础,分词过程所产生的相关词能够作为索引的一部分,组成档案检
             索的信息来源。

                 3. 档案内容的整合呈现
                 在档案利用方面,当前主要是以目的为导向进行利用,档案工作者或档案管
             理系统通过利用者的目的提供相应档案。这种利用形式是在目的与档案间建立单
             一的联系,当用户的目的单一,表达明确,不涉及范围时,现有的方案能够满足

             用户的需求。但是,当用户的需求不再涉及具体某一档案,而是需要某类档案时,
             这种方案并不能起到很好的作用,原因在于档案主题与档案之间没有建立起多重
             联系,如在档案编研时需要关于某一主题的所有档案,相关人员一般会凭借大概
             的印象去寻找这些档案,因此可能遗漏许多档案,如果能够将档案与主题联系起

             来,就能够解决许多麻烦。由于经历长时间的积累,部门机构的档案不在少数,
             以人工的方式来完成这一任务显然不可行,但依靠数据挖掘技术却能较为容易地
             完成这个事情,相关人员只要辅助参与即可。档案数据挖掘除了能够将档案与其
             主题相联系起来,还能将档案的其他属性与档案建立联系,主题只是档案的其中

             一个属性,其他的属性如类别、价值等都能与档案建立起联系,从多种维度来综
             合展现档案的内容。
                 4. 档案鉴定的科学规范
                 档案鉴定中的为何鉴定、为谁鉴定、谁来鉴定、如何鉴定等问题一直困扰着

             众多档案工作者,各个方面都颇有争议。在鉴定目的上,实体馆藏数量与库房容
             量的冲突和档案利用是主要的两个原因,前者是推动传统档案鉴定的直接诱因,
             由于档案数据挖掘立足于数字档案,其存储依赖于计算机存储设备,理论上可实



                                                                                 ·107·
   116   117   118   119   120   121   122   123   124   125   126