Page 159 - 计算机应用软件开发技术研究
P. 159
第五章 基于数据挖掘技术的智能信息处理
(四)数据挖掘的功能
数据挖掘的功能用于指定数据挖掘任务中要寻找的模式类型。数据挖掘的
任务一般可以分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特
性;预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘的功能有:
概念/类描述、关联分析、分类和预测、聚类分析、孤立点分析和演变分析。
1.概念、类描述
数据可以和类或概念相关联。可以用汇总的、简洁的、精确的方式描述概念
和类,称为概念/类描述。这种描述可以通过以下方法得到:
①数据特征化:目标类数据的一般特征或特征的汇总;
②数据区分:将目标对象的一般特征与一个或多个对比类对象的一般特征
比较;
③数据特征化和区分:同时应用数据特征化和数据区分来进行概念/类的
描述。
2.关联分析
关联分析用于发现关联规则,这些规则展示了给定数据集中数据项之间的潜
在的联系。关联分析广泛应用于购物篮或事务数据分析中。
3.分类和预测
分类找出描述并区分数据类或概念的模型,以便能够使用模型预测类、标记
未知的对象类。预测是构造和使用模型评估无标号样本类,或评估给定样本可能
具有的属性值或值区间。分类和预测的区别在于:分类是预测分类标号(或离散
值);预测是建立连续值函数模型。
4.聚类分析
聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间有较高
的相似度,而不同簇中的对象差别较大。与分类不同的是,聚类要划分的类是未
知的。
5.孤立点分析
孤立点可能是度量或执行错误所导致的,也可能是固有的数据变异性的结
果。许多数据挖掘算法试图使孤立点的影响最小化。但这可能导致重要信息丢
失,因为孤立点本身可能是非常重要的。
·147·

