Page 173 - 计算机应用软件开发技术研究

P. 173

第五章基于数据挖掘技术的智能信息处理

簇，并可以在带有噪声的空间数据库中发现任意形状的聚类。
DBSCAN 通过检查数据库中的每个点的于邻域来寻找聚类，如果一个点 p
的今令肠域包含多于 min 夕 oints 个点，则创建一个以 p 为核心对象的新簇，然

后 DBscAN 反复地寻找从这些核心对象可以直接密度到达的对象（这个过程可
能会导致一些簇的合并），直到没有新点可以添加。
如果采用空间索引，DBSCAN 的计算复杂度是 O（nlogn），n 是对象个
数。同时，一邻域和 mill points 比较难确定。

2.OPTICS（Ord ering points to Ident ify the Clustering Strueture）
在 DBSCAN 方法中需要人为确定参数，这是影响聚类质量的主要因素之
一。OPTICS 的提出就是解决这个问题。OPTICS 没有显示地产生一个数据集合
簇，它为自动和交互的聚类分析计算一个簇次序，这个次序代表了数据的基于密

度的聚类结构，它包含的信息等同于从一个宽广的参数设置范围所获得的基于密
度的聚类。
3.DENCLUE（DEN sity 一 based CLUstEring）
该算法主要基于下面的想法：

每个数据点的影响可以用一个数学函数来形式化地模拟，它描述一个数据点
在邻域里的影响（影响函数）；数据空间的整体密度可以被模型化为所有数据点
的影响函数的总和；聚类可以通过确定密度吸引点来得到，这里的密度吸引点是
全局密度函数的局部最大。基于这些想法，我们能够形式化定义中心定义的簇和

任意形状的簇。如果密度吸引点 x 的密度大于一个闭值毛，那么 x 的中心定义簇
是一个被 x 密度吸引的子集 C，否则 x 是孤立点。一个任意形状的簇是子集 C 的
集合，每个是密度吸引的，有不小于阈值毛的密度函数值，并从每个区域到另一
个都存在一条路径 P，该路径上每个点的密度函数值都不小于阈值 ξ。

（四）基于网格的聚类方法
基于网格的聚类方法采用一个多分辨率的网格数据结构。它将空间向量化为
有限数目的单元，这些单元形成了网格结构，所有的聚类操作都在网格上进行。
这类方法的优点是处理速度快，处理时间与数据对象数无关，仅依赖于量化空间

中每一维上的单元数目。
1.STING（Statis tiealI nformation Grid）统计信息网格
STING 方法将空间区域划分为矩形单元，不同级别的分辨率对应不同级别

·161·

168 169 170 171 172 173 174 175 176 177 178