Page 168 - 计算机应用软件开发技术研究
P. 168

计算机应用软件开发技术研究
            Research on Computer Application Software Development Technology

                                   第三节  分类方法研究


                一、分类方法的基本概念


                分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的
            目的是学会一个分类函数或分类模型(也称作分类器),该模型能把数据库中的
            数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从
            利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行

            预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连
            续数值。
                要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据

            库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的
            特征向量,此外训练样本还有一个类别标记。一个具体样本的形式可为:(v 1 ,
            v 2 ,…,v n ;c),其中 vn 表示字段值,c 表示类别。
                分类器的构造方法有统计方法、机器学习方法、神经网络方法等。统计方
            法包括贝叶斯法和非参数法(近邻学习或基于示例的学习),对应的知识表示则

            为判别函数和原型事例。机器学习方法包括判定树法和规则归纳法,前者对应的
            表示为判定树或判别树,后者则一般为产生式规则。神经网络方法主要是 BP 算
            法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表连接权

            值的边组成的一种体系结构),BP 算法本质上是一种非线性判别函数。
                不同的分类器有不同的特点。有三种分类器评价或比较尺度:预测准确度、
            计算复杂度、模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别
            是对于预测型分类任务,目前公认的方法是 10 番分层交叉验证法。计算复杂度
            依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是海量的数

            据库,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分
            类任务,模型描述越简洁越受欢迎。例如,采用规则表示的分类器构造法就更有
            用,而神经网络方法产生的结果就难以理解。

                另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的
            有缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是
            连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。




            ·156·
   163   164   165   166   167   168   169   170   171   172   173