Page 93 - 基于深度学习的人工智能技术研究

P. 93

第三章深度学习理论与实践

值算法用于聚类问题的解决中，每轮的迭代步骤为：从原始数据中选取 k 个点，
这些点为质心，形成 k 个簇；每个数据点被划入和其距离比较近的质心所形成的
簇中；结合簇内的现有成员，明确新质心；重复步骤 2 和 3，最后得出 k 个簇、
k 个新质心。往复迭代，直到所有数据收敛，也就是质心不再发生变化，或者只

发生微小的变化。最后，再对数据进行分类，即分为 k 类，且其是人类完全不知
的情况下得出的。一般来讲，非监督式学习主要用于企业数据的应用场景，在图
像识别过程中，由于存在大量非标记数据，加之可识别性数据较少，故非监督式
学习得到了广泛关注，并成为主流研究方向。

3. 监督式学习
监督式学习方法应用过程中，输入的数据均为“训练数据”，每组数据完整，
结果精确，例如邮件系统会对邮件进行自动化分类，包括垃圾与非垃圾邮件。在
建立预测模型时，应建立学习过程，识别和比较相关数据和预测结果，基于最终

结果对预测模型进行调整，直到预测结果符合预期。调查显示，在监督学习过程
中，比较常见的问题是分类与回归问题，对这些问题进行合理、有效的解决后，
这种算法也能获得良好的效果。现阶段，监督式学习主要包括以下几种算法：
第一，逻辑回归算法。应注意，逻辑回归算法属于分类算法，而非回归算法，

其可根据已知因变量，对离散数值进行估算，如二进制数值 1。通俗地讲，逻辑
回归算法将数据拟成逻辑函数，对事件的发生概率进行预估。因此，逻辑回归算
法也被称为逻辑回归，这是因为算法输出的是事件发生率，所以输出值处于 0~1
之间。

第二，朴素贝叶斯算法。朴素贝叶斯是一种简单且强大的分类器（线性），
在疾病诊治、垃圾邮件的分类等领域效果显著。之所以将其称之为朴素，是因为
这种算法的特征是独立的，也就是属性之间没有关联性，但是在实际生活中，该
假设几乎不成立。然而即便假设不成立，朴素贝叶斯算法的模型仍能获得良好的

效果，特别是对规模比较小的样本进行分类时。但是，如果每个属性、特征之间
的关联性比较强，或是非线性分类问题的处理，都有可能会影响分类效果。
第三，线性回归算法。线性回归通常基于连续变量，对实际数值进行估算。
实际工作中，大多使用拟合直线的方式，对因变量、自变量之间的关系进行构建，

该直线又称为回归线，用 Y=aX+b 线性等式表示。线性回归算法有两种类型：一
种是一元线性回归，其特征是仅一个自变量；一种是多元线性回归，其特点是有

88 89 90 91 92 93 94 95 96 97 98