Page 120 - 新时期档案管理理论与实践探析
P. 120

新时期档案管理理论与实践探析
                    Analysis of Theory and Practice of Archives Management in the New Era


            数据库(如文档型数据库)相结合的方式来减少不稳定性因素。
                (二)档案数据挖掘的现实价值
                1. 档案的多元分类

                在档案整理的过程中,档案分类是一个尤为重要的任务。由于事物一般具有
            多重属性,按照不同的分类体系可产生不同的分类结果。同理,多重属性的特征
            在档案上也随处可见,如对于常见的文书档案,当前的分类主要依据“全宗号—
            年度—机构(问题)—件号”的模式来进行,在实际的档案整理过程中,为了避

            免机构和问题两个不同类别的交叉,往往采取二选一的分类,而机构运行中产生
            的文书档案一定与活动、问题等密切相关,因此所解决的问题、涉及的机构、相
            关的人员等内容特征会集中体现在文书档案中,二选一的分类势必将舍去其他的
            内容特征。除此之外,在档案著录方面,出于人力成本和时间成本的考虑,一般

            档案机构并不会对主题词等相关内容进行著录,进而导致这样的分类模式将会对
            档案编研产生直接的影响,如在档案年鉴的编制过程中,经常会采用经济、政治、
            文化等相关元素的分类,以上的这种分类模式根本无法对年鉴的编制带来直接的
            效益,反而会迫使编制人员进行重新查询和分类,浪费大量的时间,因此档案的

            多元分类势在必行。在数据挖掘中,利用机器学习的原理可对文本进行自动分类,
            结合相关训练语料和包含 IDF、词性等数据的训练词典,能够极大地提高分类的
            准确性。在训练分类过程中,分类的结果由特征向量权值的计算方法密切相关,
            根据不同的计算方法可产生不同的结果,因此通过制定不同的特征向量计算方法

            可达到产生不同分类器的目的,进而使得档案能够进行多元分类。
                2. 档案信息的准确检索
                档案检索是档案利用的一个重要途径,档案的形式特征、内容特征等信息
            经过数字化后形成的数据被保存在数据库中,经由检索系统返回结果数据,从而

            达到档案检索的目的。在整个检索过程中,档案检索的满意度与检索系统的查全
            率和查准率呈正相关,其中查准率为检索出的相关信息量与检索出的信息总量的
            比值,查全率为检索出的相关信息量与系统中的相关信息总量的比值,从中可以
            看出制约档案检索的因素主要为系统的检索算法和系统中的信息总量。在检索算

            法方面,随着信息技术的快速发展,当前的检索算法基本已能达到令人满意的程
            度,加之受制于检索范围的限制,检索算法的改进所带来满意度的提升已到了瓶
            颈期,真正的影响因素实为系统中的相关信息总量,即包括档案原生的内容文本



            ·106·
   115   116   117   118   119   120   121   122   123   124   125