Page 169 - 计算机应用软件开发技术研究

P. 169

第五章基于数据挖掘技术的智能信息处理

二、分类的基本步骤

数据分类（data elassifieation）是一个两步过程。

（一）建立一个模型，描述预定的数据类集或概念集
通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预
定义的类，由一个称作类标号属性（dasslabelattribute）的属性确定。对于分类，
数据元素也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数
据集。训练数据集中的单个元组称作训练样本，并随机地由样本群选取。由于提

供了每个训练样本的类标号，该步骤也称作有指导的学习（即模型地学习在被告
知每个训练样本属于哪个类的“指导”下进行）。它不同于无指导地学习（或聚
类），那里每个训练样本的类标号是未知的，要学习的类集合或数量也可能事先
不知道。

通常，学习模型用分类规则、判定树或数学公式的形式提供。例如，给定一
个顾客信用信息的数据库，可以学习分类规则，根据他们的信誉度优良或相当好
来识别顾客。这些规则可以用来为以后的数据样本分类，也能对数据库的内容提
供更好的理解。

（二）使用模型进行分类
首先评估模型（分类法）的预测准确率。保持（holdout）方法是一种使用类
标号样本测试集的简单方法。这些样本随机选取，并独立于训练样本，将已知的
类标号与该样本的学习模型类预测比较。注意，如果模型的准确率根据训练数据

集评估，评估可能是乐观的，因为学习模型倾向于过分适合数据（即是，它可能
并入训练数据中某些特别的异常，这些异常不出现在总体样本群中），因此使用
测试集。如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组
或对象进行分类（这种数据在机器学习文献中也称为“未知的”或“先前未见到

的”数据）。例如，通过分析现有顾客数据学习得到的分类规则可以用来预测新
的或未来顾客的信誉度。

三、分类算法种类

第一，判定树归纳分类法。判定树归纳的基本算法是贪心算法，它以自顶向
下递归的各个击破的方式构造判定树。

·157·

164 165 166 167 168 169 170 171 172 173 174