Page 115 - 新时期档案管理理论与实践探析
P. 115
第四章 大数据在档案管理中的应用
用的一种分析手段。通过利用可信度、兴趣度以及关联性等一系列数值,查找相
关数据源中出现多次且满足条件的类型或属性,从中提取出潜在的关系网,为人
们提供信息资源。较为经典的如购物篮分析,就是因发现 90% 购买纸尿裤的人
都会购买啤酒。因此,超市管理者通过调整两件物品的摆放位置,使销量大增。
聚类分析(clustering):聚类分析是指将研究对象遵循一定的属性值,并将
其划分为一系列有意义的子集的过程。人们可以通过聚类分析挖掘出数据的分布
形态,以及与相关数据的关联。聚类的输入一组未被标记的数据,其按照维持最
大和最小组间相似度为尺度,再依据数据本身的距离或相似度加以划分。以达到
在不同聚类中的信息尽量不一致,可是对于相同的聚类中的信息又最大可能的保
持一致的属性。
其与数据分类的区别就是经聚类分析处理的数据是一组未经任何分类处理过
的数据。其根据相关规则将数据进行合理的、有意义的分类,而不是依附预先设
定好的类。对于相同数据集合是否有不同的划分,取决于分析时采用的方法。因
此,对结果的评价是聚类分析中必不可缺的环节。
分类:简单地说,实现分类需要有两个过程,先构建模型,描述数据集,再
分类模型。其中,较为常用的算法有决策树算法、贝叶斯算法等,多被用于规则
描述和预测。此方法在保险、银行以及医学等领域得到了很好的发展与应用。是
数据挖掘任务中使用相对频繁的操作方法之一。
偏差分析;又称为孤立点检测。是指数据库中可能存在与数据信息或模型不
一致的,单独存在的数据对象。在一般的数据挖掘操作中通常以噪声的方式被除
去。可相对于特定的研究领域,如银行、保险业中就是使用偏差分析对是否存有
欺骗行为进行一系列的检测。通过监测用户信用卡的使用状态,并与常态数值相
比较,分析出是否存有付款数额较多等情况,最终对用户是否存在信用卡欺骗行
为做出分析判断。
预测:预测是指从原始的目标数据中发掘其变化的规律。建立模型用于判断
将要发生变化数据的类别或特质,也就是预测将要发生但却没有发生的变量信息,
往往要经历漫长的时间才能验证预测的结果准确与否。
五、数据挖掘的方法
指以数据库为研究对象,在与传统的分析方法相融合的基础上,形成的方法
·101·

