Page 119 - 新时期档案管理理论与实践探析
P. 119
第四章 大数据在档案管理中的应用
析,从而挖掘潜在有价值的信息。在档案行业,随着信息社会的发展,无纸化政
策的推进,数字档案的产生量不断递增,加之大部分为非结构化数据,使得档案
管理工作难度加大,而档案数据挖掘即是从大量数字档案中发现有益于档案管理
活动的可被利用信息,改善档案管理者的工作现状,为普通公众提供更优质的档
案服务。
2. 机器学习
机器学习是一门研究人工智能的科学,特别是如何改善经验学习中算法的
性能。机器学习最早可以追溯到对人工神经网络的研究,Warren Mc Culloch 和
Walter Pitts 早在 1943 年就提出了神经网络层次结构模型,确立为神经网络的计
算模型理论,从而为机器学习的发展奠定了基础。在之后的 1950 年,“图灵测试”
的提出标志着人工智能开始成为一个重要的研究课题,从此以人工智能为核心的
机器学习也正式迈入研究殿堂。学习与人的参与密不可分,根据人参与程度的不
同可将机器学习的学习形式分为监督学习、无监督学习和半监督学习等几类,其
中监督学习是根据数据训练集产生的函数来预测新数据对应的结果,训练集的目
标是由人为标注产生的;无监督学习与监督学习相比,训练集不包括人为标注的
数据,整个过程由计算机自主完成;半监督学习介于监督学习与无监督学习之间,
是两者相结合产生的一种学习方法,它运用了大量的未标记数据,同时使用少量
标记数据进行模式识别,进而来完成任务。
3. 数据库管理
数据库管理顾名思义就是对数据库进行管理,其核心是数据库。根据不同的
结构,数据库可分为很多类型,其中关系型数据库是最常见的。关系型数据库是
建立在关系模型基础上的数据库,借助于数学方法来处理数据,绝大多数档案机
构使用的就是这种类型的数据库。由于档案数据挖掘过程中涉及的异构数据加多,
因此还需要非关系数据库的参与,特别是文档型数据库。与关系型数据库相比,
非关系型数据库在使用前不需要定义相关的表结构,使用时也具有较大的灵活性。
具体来说,数据库的管理应根据数据挖掘过程的任务进行及时调整,满足其系统
需求,由于数据挖掘更偏向于探索性分析,意在从数据中寻找出有价值的信息,
且这类信息经常不在预定的设计结构之内,因此在档案数据挖掘的过程中,常会
带来数据类型等变量的不确定性,从而加剧已定义结构的不稳定性。随着数据挖
掘技术的不断发展,结构需要不断调整,为此需要采用关系型数据库与非关系型
·105·

