Page 171 - 计算机应用软件开发技术研究

P. 171

第五章基于数据挖掘技术的智能信息处理

第四节聚类的研究

一、聚类的基本概念

聚类（Clustering）是一个将数据集划分为若干组（Class）或类（Cluster）
的过程，并使得同一个组内的数据对象具有较高的相似度；而不同组中的数据对
象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常
就是利用（各对象间）距离来进行表示的。聚类方法包括统计方法、机器学习方

法、神经网络方法和面向数据库的方法。
将一组（set）物理的或抽象的对象，根据它们之间的相似程度，分为若干
组（group）；其中相似的对象构成一组，这一过程就称为聚类过程。一个聚类

就是由彼此相似的一组对象所构成的集合；不同聚类中对象是不相似的。就是
从给定的数据集中搜索数据项（items）之间所存在的有价值联系。在许多应用
中，一个聚类中所有对象常常被当作一个对象来进行处理或分析等操作。在统计
方法中，聚类称聚类分析，它是多元数据分析的三大方法之一（其他两种是回归
分析和判别分析）。它主要研究基于几何距离的聚类，如欧式距离、明考斯基

距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类
法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比
较地聚类，它需要考察所有的个体才能决定类的划分；因此它要求所有的数据必

须预先给定，而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复
杂度，难以适用于数据库非常大的情况。
在机器学习中，聚类分析属于一种无监督的学习方法。与分类学习不同，无
监督学习不依靠事先确定的数据类别以及标有数据类别的学习训练样本集合。正
因为如此，聚类分析又是一种通过观察学习方法（Learning by observation），而

不是示例学习（Leaming by example）。在概念聚类方法中，仅当一组对象可以
由一个概念所描述时，这些对象方才能构成一个类。这与基于几何距离表示相似
程度并进行聚类的传统聚类方法有所不同。概念聚类方法主要包含两部分内容：

一是发现适当的类；二是根据每个类形成相应的特征描述，与在分类学习中的方
法类似。最大程度地实现类中对象相似度最大，对象相似度最小是聚类分析的基
本指导思想。

·159·

166 167 168 169 170 171 172 173 174 175 176