Page 159 - 计算机应用软件开发技术研究
P. 159

第五章  基于数据挖掘技术的智能信息处理



                 (四)数据挖掘的功能
                 数据挖掘的功能用于指定数据挖掘任务中要寻找的模式类型。数据挖掘的
             任务一般可以分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特

             性;预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘的功能有:
             概念/类描述、关联分析、分类和预测、聚类分析、孤立点分析和演变分析。
                 1.概念、类描述
                 数据可以和类或概念相关联。可以用汇总的、简洁的、精确的方式描述概念

             和类,称为概念/类描述。这种描述可以通过以下方法得到:
                 ①数据特征化:目标类数据的一般特征或特征的汇总;
                 ②数据区分:将目标对象的一般特征与一个或多个对比类对象的一般特征
             比较;

                 ③数据特征化和区分:同时应用数据特征化和数据区分来进行概念/类的
             描述。
                 2.关联分析
                 关联分析用于发现关联规则,这些规则展示了给定数据集中数据项之间的潜

             在的联系。关联分析广泛应用于购物篮或事务数据分析中。
                 3.分类和预测
                 分类找出描述并区分数据类或概念的模型,以便能够使用模型预测类、标记
             未知的对象类。预测是构造和使用模型评估无标号样本类,或评估给定样本可能

             具有的属性值或值区间。分类和预测的区别在于:分类是预测分类标号(或离散
             值);预测是建立连续值函数模型。
                 4.聚类分析
                 聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间有较高

             的相似度,而不同簇中的对象差别较大。与分类不同的是,聚类要划分的类是未
             知的。
                 5.孤立点分析
                 孤立点可能是度量或执行错误所导致的,也可能是固有的数据变异性的结

             果。许多数据挖掘算法试图使孤立点的影响最小化。但这可能导致重要信息丢
             失,因为孤立点本身可能是非常重要的。





                                                                                 ·147·
   154   155   156   157   158   159   160   161   162   163   164