Page 131 - 新时期档案管理理论与实践探析
P. 131

第四章  大数据在档案管理中的应用




             档案进行归纳,对不同类型的档案进行区分,帮助档案管理员进行档案归类,提
             高档案的检索有效率和检索速度。
                 数字挖掘技术在档案分类分析中,通常需要依靠挖掘系统数据库特有的属性

             分析功能,将对象总体地区划分为不同类别的工作过程,具体操作方法为;在特
             征各异的数据集合中挑选出已经完成分类工作的训练集,针对该训练集采用数据
             挖掘分类方法,构建相应的分类模型。针对未完成分类工作的数据资料开展分类。
             数据挖掘分类技术在档案管理工作中的应用能够帮助我们在复杂的用户信息中找

             到最初的数据信息,同时对信息使用者的具体特点进行分类和总结。举个例子,
             使用者可以利用网络对我们的档案馆进行访问。在这种情况下,数据挖掘技术就
             能够对使用者的具体访问记录进行自动保留,同时具体分析使用者的个人身份及
             其信息查询情况开展科学分类。信息使用者的个人身份信息一般包括他的年龄、

             职业、性别以及兴趣爱好、学历水平等,综合分析以上信息资料以及使用者的具
             体访问情况,就能够对使用者的特点以及使用偏好进行分析和推断。举个例子,
             我们可以对使用者访问的网页内容、查询的间隔时间以及停留时间、下载情况等
             信息进行全面分析和汇总,针对具体分析结果挖掘使用者的兴趣爱好,并合理应

             用使用者的其他信息,如使用者提出的问题等。
                 总而言之,对不同使用群体的具体特点以及偏好进行差异化分析,能够提高
             用户信息使用的准确性和有效性,提高信息服务质量。在采用数据挖掘技术进行
             档案分类的过程中,决策树算法(DT)属于效果最为突出的一种方法。要想正

             确应用决策树算法,首先必须构建一棵树,以便针对具体的分类过程开展建模。
             树的模型建构完毕后,即可将该模型应用在数据库元组当中,获取相应的分类结
             果。在实施决策树算法的过程中,一般需要分两个步骤来完成,第一步是要构建
             树模型,第二步是要将该树模型应用于数据库当中。决策树分类算法要求对搜索

             空间进行有效划分,形成各种矩形区域,之后再按照元组所属区域针对元组实施
             有效分类。在采用决策树算法的过程中,通常需要解决下列问题:其一,正确选
             择分裂属性;其二,合理确定分裂属性的具体次序;其三,开展分裂操作;其四,
             注意优化树的结构:其五,如训练数据分类正确,应停止树的产生过程;其六,

             科学控制训练数据;其七,开展有效剪枝。
                 (二)档案收集中的运用
                 数据挖掘技术在档案收集过程中的运用主要是在对数据库内的数据进行分析



                                                                                 ·117·
   126   127   128   129   130   131   132   133   134   135   136