Page 82 - 城镇燃气管道检测与评估技术规程

P. 82

Technical Regulations for Urban Gas Pipeline Detection and Evaluation
城镇燃气管道检测与评估技术规程

k 个类别的单独分区，其中同一个类别中具有更高的相似度。分层聚类和分区聚
类的主要区别在于分层算法中 k 是未知的，而在分区算法中 k 是已知的。聚类分
析是在事先不了解样本数据任何先验知识的情况下，利用样本特征进行相似性度

量，特征相似的归为一类，实现聚类划分。人是最佳的二维分类器，然而现实中
涉及的许多问题均为高维聚类，同时数据也不服从规则现象分布，许多聚类算法
由此产生。广泛使用的聚类算法包括 K 均值、均值漂移、层次聚类、高斯混合模型、
基于密度的聚类等等。以下为近年来应用最广的几种算法：

（1）K 均值（K-Means，KM）聚类
K 均值算法是通过计算各点与每个组中心的距离，将各点归类为各组中心点
最近的组合，从而实现每个点的分类。基于分类后的各组点的均值重新定义组中
心，重复上述步骤，直至迭代至组中中心点没有太大变化。K 均值方法适用于非

线性模式识别问题，是最受喜爱和运行最快速的聚类方法。它需要预先知道簇类
的数量 K。它对指定的初始集群中心非常敏感，产生不同种类的数据完全取决于
初始集群中心的随机选择，因此可能产生较差结果。而且使用 K 均值聚类算法
寻找更好结果只能通过使用几个具有随机起始点的复制来穷举起始点去解决。

（2）均值漂移（MeanShift，MS）聚类
MS 是基于滑动窗口的聚类算法，通过寻找样本点的密集区域，定位每个类
的中心点，将滑动窗口内的点的平均值作为中心点的候选位置，最终过滤候选窗
口消除近视重复，确定最后一组中心点及对应的组。与 K 均值相比，无需选择

聚类数量，MS 可以自动寻找，集群中心向最大密度点逼近较为理想，直观易懂，
具有提高聚类精度的潜力。然而对于无监督学习来说，MS 计算成本很高。
（3）基于密度的聚类算法（Density-Based Spatial Clustering of Applications
with Noise，DBSCAN）

DBSCAN 是一种性能优越的技术，应用潜力巨大，因此经常受到科研人员
的广泛关注。DBSCAN 优势明显，无需预先设置数量集群，能将异常值识别为
噪声，在聚类过程中可以找到任意形状的组合，具有从其他数据中分离噪声的能
力。然而集群具有不同密度时，识别邻域点的距离阈值和最小数目的设置会在集

群之间发生变化，距离阈值难以估计，导致性能劣于其他算法。
（4）高斯混合模型（Gaussian Mixture Model，GMM）
GMM 算法为高斯模型的扩展，是由多个高斯分布组合，常被用于描述样本

77 78 79 80 81 82 83 84 85 86 87