Page 119 - 新时期档案管理理论与实践探析
P. 119

第四章  大数据在档案管理中的应用




             析,从而挖掘潜在有价值的信息。在档案行业,随着信息社会的发展,无纸化政
             策的推进,数字档案的产生量不断递增,加之大部分为非结构化数据,使得档案
             管理工作难度加大,而档案数据挖掘即是从大量数字档案中发现有益于档案管理

             活动的可被利用信息,改善档案管理者的工作现状,为普通公众提供更优质的档
             案服务。
                 2. 机器学习
                 机器学习是一门研究人工智能的科学,特别是如何改善经验学习中算法的

             性能。机器学习最早可以追溯到对人工神经网络的研究,Warren Mc Culloch 和
             Walter Pitts 早在 1943 年就提出了神经网络层次结构模型,确立为神经网络的计
             算模型理论,从而为机器学习的发展奠定了基础。在之后的 1950 年,“图灵测试”
             的提出标志着人工智能开始成为一个重要的研究课题,从此以人工智能为核心的

             机器学习也正式迈入研究殿堂。学习与人的参与密不可分,根据人参与程度的不
             同可将机器学习的学习形式分为监督学习、无监督学习和半监督学习等几类,其
             中监督学习是根据数据训练集产生的函数来预测新数据对应的结果,训练集的目
             标是由人为标注产生的;无监督学习与监督学习相比,训练集不包括人为标注的

             数据,整个过程由计算机自主完成;半监督学习介于监督学习与无监督学习之间,
             是两者相结合产生的一种学习方法,它运用了大量的未标记数据,同时使用少量
             标记数据进行模式识别,进而来完成任务。
                 3. 数据库管理

                 数据库管理顾名思义就是对数据库进行管理,其核心是数据库。根据不同的
             结构,数据库可分为很多类型,其中关系型数据库是最常见的。关系型数据库是
             建立在关系模型基础上的数据库,借助于数学方法来处理数据,绝大多数档案机
             构使用的就是这种类型的数据库。由于档案数据挖掘过程中涉及的异构数据加多,

             因此还需要非关系数据库的参与,特别是文档型数据库。与关系型数据库相比,
             非关系型数据库在使用前不需要定义相关的表结构,使用时也具有较大的灵活性。
             具体来说,数据库的管理应根据数据挖掘过程的任务进行及时调整,满足其系统
             需求,由于数据挖掘更偏向于探索性分析,意在从数据中寻找出有价值的信息,

             且这类信息经常不在预定的设计结构之内,因此在档案数据挖掘的过程中,常会
             带来数据类型等变量的不确定性,从而加剧已定义结构的不稳定性。随着数据挖
             掘技术的不断发展,结构需要不断调整,为此需要采用关系型数据库与非关系型



                                                                                 ·105·
   114   115   116   117   118   119   120   121   122   123   124