Page 119 - 新时期档案管理理论与实践探析

P. 119

第四章大数据在档案管理中的应用

析，从而挖掘潜在有价值的信息。在档案行业，随着信息社会的发展，无纸化政
策的推进，数字档案的产生量不断递增，加之大部分为非结构化数据，使得档案
管理工作难度加大，而档案数据挖掘即是从大量数字档案中发现有益于档案管理

活动的可被利用信息，改善档案管理者的工作现状，为普通公众提供更优质的档
案服务。
2. 机器学习
机器学习是一门研究人工智能的科学，特别是如何改善经验学习中算法的

性能。机器学习最早可以追溯到对人工神经网络的研究，Warren Mc Culloch 和
Walter Pitts 早在 1943 年就提出了神经网络层次结构模型，确立为神经网络的计
算模型理论，从而为机器学习的发展奠定了基础。在之后的 1950 年，“图灵测试”
的提出标志着人工智能开始成为一个重要的研究课题，从此以人工智能为核心的

机器学习也正式迈入研究殿堂。学习与人的参与密不可分，根据人参与程度的不
同可将机器学习的学习形式分为监督学习、无监督学习和半监督学习等几类，其
中监督学习是根据数据训练集产生的函数来预测新数据对应的结果，训练集的目
标是由人为标注产生的；无监督学习与监督学习相比，训练集不包括人为标注的

数据，整个过程由计算机自主完成；半监督学习介于监督学习与无监督学习之间，
是两者相结合产生的一种学习方法，它运用了大量的未标记数据，同时使用少量
标记数据进行模式识别，进而来完成任务。
3. 数据库管理

数据库管理顾名思义就是对数据库进行管理，其核心是数据库。根据不同的
结构，数据库可分为很多类型，其中关系型数据库是最常见的。关系型数据库是
建立在关系模型基础上的数据库，借助于数学方法来处理数据，绝大多数档案机
构使用的就是这种类型的数据库。由于档案数据挖掘过程中涉及的异构数据加多，

因此还需要非关系数据库的参与，特别是文档型数据库。与关系型数据库相比，
非关系型数据库在使用前不需要定义相关的表结构，使用时也具有较大的灵活性。
具体来说，数据库的管理应根据数据挖掘过程的任务进行及时调整，满足其系统
需求，由于数据挖掘更偏向于探索性分析，意在从数据中寻找出有价值的信息，

且这类信息经常不在预定的设计结构之内，因此在档案数据挖掘的过程中，常会
带来数据类型等变量的不确定性，从而加剧已定义结构的不稳定性。随着数据挖
掘技术的不断发展，结构需要不断调整，为此需要采用关系型数据库与非关系型

·105·

114 115 116 117 118 119 120 121 122 123 124