Page 84 - 城镇燃气管道检测与评估技术规程

P. 84

Technical Regulations for Urban Gas Pipeline Detection and Evaluation
城镇燃气管道检测与评估技术规程

于回归，离散变量的预测属于分类。常用的有监督学习方法包括 K- 近邻、决策树、
随机森林、支持向量机、神经网络等。具体内容如下：
（1）K- 最近邻算法（K-Nearest Neighbors，KNN）

KNN 算法既是一种回归的非参数统计法，也是一种分类算法。算法旨在从
含有多个数据点的数据集中找出各数据点的最近邻 K 来指定每个测试数据的类
别，并且这个数据点属于 K 个近邻中的大多数类。因此 K 所选择的最近邻数据
点必须均为已知类别的点，同时 K 的数值一般选择小于或等于 20 的整数。

（2）决策树（Decision Trees，DT）
DT 是非参数算法，因此具有高度灵活性。例如，分类和回归树将所有可能
的值划分为不同的、不重叠的区域，这个过程被作为递归分区。DT 是一种分类
算法，结构为树状结构，可以是二叉树或非二叉树。与贝叶斯算法不同，DT 不

依赖领域知识，通过使用属性选择度量确定各个属性之间的拓扑结构。
（3）随机森林（Random Forest，RF）
RF 属于递归分区法，涉及基于单个决策树集合的预测。RF 将多个模型组合
成单个随机森林，因此被称为集合方法。为此，RF 建立原始样本的 bootstrap，

并在每一个 bootstrap 内估算单棵树。随机森林的过拟合风险比单棵树低，是由
于多棵树被平均在一起可以提供更准确和更稳定的预测。当模型与特定数据集过
于接近而不能准确预测新样本中的事件时，就会出现过拟合。此外，RF 是由数
百或数千棵树组成的集合，在视觉上不如一棵树易于解释。

（4）支持向量机（Support Vector Machines，SVM）
SVM 通常用于在多维空间中包含两个以上类别的划分。为了区分不同个体
的类别，SVM 选取了一个超平面作为最大限度分离不同类别数据的边界。SVM
通过应用数据转换将数据投影到更高维度的空间中，从而找到分离决策面，此过

程称为内核函数。尽管 SVM 可以使用灵活的非线性内核实现高度准确预测，但
是也受到黑盒方法的限制，无法提供如何组合预测器来优化超平面的度量方法。
（5）人工神经网络（Artiﬁcial Neural Network，ANN）
ANN 被认为是最强大的工具之一，已经被广泛地应用于生活各个方面，涉

及故障诊断、趋势预测、剩余寿命分析等多个领域。它可以通过训练新的样本
实现更新学习机制从而适应新的环境，具有较强的泛化能力和容错能力。人工
神经网络的开发始于 McCulloch-Pitts 在 1943 年的成果。之后，Widrow-Hoff 开

79 80 81 82 83 84 85 86 87 88 89