Page 114 - 新时期档案管理理论与实践探析
P. 114
新时期档案管理理论与实践探析
Analysis of Theory and Practice of Archives Management in the New Era
完成对分析变量的获取操作。
(三)数据收集和获取
数据挖掘的本质莫过于就是数据,在确定需要分析的目标对象后,为了保证
待分析数据的层次与质量,我们需要对所有数据进行预处理。值得注意的是,数
据的准确与否,将直接对结果产生影响,如数据不够准确,便会使结果失去意义。
(四)数据集成
因为数据信息庞大,且不连接。因此,我们要对数据加以整合,统一存放和
管理,以便于清除数据源中不够准确、完整、冗余的数据。
(五)数据选择与变化
本过程旨在选取符合挖掘任务的数据,并将选取后的数据加以改变。在确保
不影响结果的情况下,对数据进行筛选,尽量将数据范围缩小,起到提高挖掘质
量和效率的目的。此过程应在专业人士的指导下完成。
(六)发现模型与假设
输出结果。在确定相应的技术与算法后,开始校验数值,构建模型,并加以
分析与处理。
(七)数据挖掘
根据设定完成的,使用挖掘算法对经过处理发生改变的数值进行挖掘处理后,
对所需的参数进行提取操作。
(八)测试与结果验证
在此环节中对参数进行分析,如描述的是多维目标,则需测试与验证挖掘结
果,方便更加合理的提取及分离出正确的、有价值的信息方式。
(九)解释与使用
通过得出的结果,在得到专家的解释后,将其应用到具体实例中。在遵循准
确性。适用性等原则基础上,对解释结果进行验证。把最后汇总得到的知识,运
用到实际业务中,并知识信息展现给利用者。
四、数据挖掘的任务与常用方法
数据挖掘任务主要分为以下几种类型,下面简要述之。
关联分析(association analysis):关联分析是相对于其他方式易于操作且实
·100·

