Page 93 - 基于深度学习的人工智能技术研究
P. 93
第三章 深度学习理论与实践
值算法用于聚类问题的解决中,每轮的迭代步骤为:从原始数据中选取 k 个点,
这些点为质心,形成 k 个簇;每个数据点被划入和其距离比较近的质心所形成的
簇中;结合簇内的现有成员,明确新质心;重复步骤 2 和 3,最后得出 k 个簇、
k 个新质心。往复迭代,直到所有数据收敛,也就是质心不再发生变化,或者只
发生微小的变化。最后,再对数据进行分类,即分为 k 类,且其是人类完全不知
的情况下得出的。一般来讲,非监督式学习主要用于企业数据的应用场景,在图
像识别过程中,由于存在大量非标记数据,加之可识别性数据较少,故非监督式
学习得到了广泛关注,并成为主流研究方向。
3. 监督式学习
监督式学习方法应用过程中,输入的数据均为“训练数据”,每组数据完整,
结果精确,例如邮件系统会对邮件进行自动化分类,包括垃圾与非垃圾邮件。在
建立预测模型时,应建立学习过程,识别和比较相关数据和预测结果,基于最终
结果对预测模型进行调整,直到预测结果符合预期。调查显示,在监督学习过程
中,比较常见的问题是分类与回归问题,对这些问题进行合理、有效的解决后,
这种算法也能获得良好的效果。现阶段,监督式学习主要包括以下几种算法:
第一,逻辑回归算法。应注意,逻辑回归算法属于分类算法,而非回归算法,
其可根据已知因变量,对离散数值进行估算,如二进制数值 1。通俗地讲,逻辑
回归算法将数据拟成逻辑函数,对事件的发生概率进行预估。因此,逻辑回归算
法也被称为逻辑回归,这是因为算法输出的是事件发生率,所以输出值处于 0~1
之间。
第二,朴素贝叶斯算法。朴素贝叶斯是一种简单且强大的分类器(线性),
在疾病诊治、垃圾邮件的分类等领域效果显著。之所以将其称之为朴素,是因为
这种算法的特征是独立的,也就是属性之间没有关联性,但是在实际生活中,该
假设几乎不成立。然而即便假设不成立,朴素贝叶斯算法的模型仍能获得良好的
效果,特别是对规模比较小的样本进行分类时。但是,如果每个属性、特征之间
的关联性比较强,或是非线性分类问题的处理,都有可能会影响分类效果。
第三,线性回归算法。线性回归通常基于连续变量,对实际数值进行估算。
实际工作中,大多使用拟合直线的方式,对因变量、自变量之间的关系进行构建,
该直线又称为回归线,用 Y=aX+b 线性等式表示。线性回归算法有两种类型:一
种是一元线性回归,其特征是仅一个自变量;一种是多元线性回归,其特点是有
85

