Page 102 - 基于深度学习的人工智能技术研究

P. 102

Research on Artificial Intelligence Technology Based on Deep Learning
基于深度学习的人工智能技术研究

式，是一种数据批处理的运算，顾名思义，是每次将一批数据同时输入网络进行
学习的方式。BPTT 就是一种离线训练方式，通过将全时间段求和然后调整权值，
这种方式不适合应用于时效性较强的任务。在 Williams 之后的研究中，一种适合
于递归神经网络在线进行梯度学习的算法被提出，也有学者将 BPTT 进行改进，

使之应用于在线训练方式。Hinton 于 2006 年在 Science 上发表文章，提出一种快
速有效的递归神经网络训练算法，成功克服了传统 BP 算法的几个缺点，提出一
种无监督的贪心逐层网络训练方法，命名为深度信念网（Deep Belief Network，
DBN），之后很多学者对该网络学习算法进行研究和改进，成功应用于递归网络

的学习训练，取得一定的成果。
Al-Tamimi 等人研究了非线性放射系统的最优控制问题，提出一种将神经网
络和 ADP 结合使用的控制方法，由于该方法的性能指标具有二次型的形式，因
此适合于二次型最优控制在非线性系统中的应用，此外，在理论方面，也给出了

神经网络逼近 HJB 方程的最优解和相关的收敛性证明。Vamvoudakis 等人提出一
种将神经网络作为评价和控制作用的逼近器方法，该方法首先采用梯度下降法对
被控网络逼近器进行学习和建模，通过分析李亚普诺夫理论得到该算法中重要参
数的选取范围，保证系统收敛，然后将该方法与在线自适应评价方法相结合，应

用于连续系统无穷时域的优化控制问题中，实验结果表明具有较好的精度和收敛
性。Fu 等人研究和分析了某一类评价及控制的神经网络逼近器，对 LM 算法进
行了改进，得到一种适用于计算雅可比矩阵的高效方法，并将该方法用于网络权
值的训练，得到较好的效果。

近几年，神经网络越来越多地应用于具有非行动依赖特性的自适应动态规
划问题，这是因为系统的输入输出测量数据往往包含着系统内部的动力学特性，
因此通过大量采集输入输出数据，通过数据驱动的方式对系统的动力学特性进行
学习和模拟，能够利用递归网络来实现，因此递归网络是较好的系统辨识工具。

Hayakawa 等人在系统模型未知的条件下，采用基于数据驱动的方式利用神经网
络对未知系统进行建模，该方法是利用神经网络的 HDP 控制策略具有较好收敛
性的特点，分析取值参数，从而得到较好的系统模型。
目前的一些无模型控制方法需要系统的全部状态具有可观可测，但实际上由

于硬件条件的限制或者测量成本较高，往往难以保证测得所需信息。然而利用递
归神经网络的动力学特性对未知系统进行建模，利用数据驱动模式实现建模是一

97 98 99 100 101 102 103 104 105 106 107