Page 221 - 计算机技术与网络安全研究

P. 221

第九章人工智能技术

来判断动作的好坏进而训练模型的方法。强化学习中探索和开发的权重高低是一
个难题：为获得更好的奖励必须尽量选择能获得高奖励的动作，但是为了获得更
好的奖励，也必须挖掘未知的动作。
强化学习的基础来源于行为心理学。在 1911 年 Thorndike 提出了效用法则，
即在环境中让人或者动物感到舒服的动作，人或者动物会不断强化这一动作。反

之，如果人或者动物感觉到不舒服的行为，人或者动物会减少这种动作。强化学
习换言之是强化得到奖励的行为，弱化受到惩罚的行为。通过试错的机制训练模
型，找到最佳的动作和行为获得最大的回报。它模仿了人或者动物学习的模式，

并且不需要引导智能体向某个方向学习。智能体可以自主学习，不需要专业知识
的引导和人力的帮助。
基础的强化学习算法有使用表格学习的 q-learning，sarsa 以及使用神经网络
学习的 DQN，直接输出行为的 PolicyGradients 及 ActorCritic 等。强化学习算法应
用到游戏领域取得了不错的成果，在星际和潮人篮球的 AI 训练方面都取得了不

错的成果。
（三）自然语言处理
自然语言处理（NLP）是指计算机拥有识别理解人类文本语言的能力，是计

算机科学与人类语言学的交叉学科。自然语言是人与动物之间的最大区别，人类
的思维建立在语言之上，所以自然语言处理也就代表了人工智能的最终目标。机
器若想实现真正的智能自然语言处理是必不可少的一环。自然语言处理分为语法
语义分析、信息抽取、文本挖掘、信息检索、机器翻译、问答系统和对话系统 7
个方向。句法语义分析，是对于给定的语言提取词进行词性和词义分析，然后分

析句子的句法、语义角色和多词义选取。信息抽取，是指从给定的一段文字中抽
取时间、地点和人物等主要信息，以及因果关系等句子关系。文本挖掘，对大量
的文档提供自动索引，通过关键词或其他有用信息的输入自动检索出需要的文档

信息。机器翻译，输入源文字并自动将源文字翻译为另一种语言，根据媒介的不
同可以分为很多的细类，如文本翻译、图形翻译及手语翻译等。问答系统，是提
出一个文字表达的问题，计算机可以给出准确的答案，过程中需要对问题进行语
义分析，然后在资料库中寻出对应答案。对话系统，指计算机可以联系上下文和
用户进行聊天及交流等任务，针对不同的用户采用不同的回复方式等功能。自然

语言处理主要有 5 类技术，分别是分类、匹配、翻译、结构预测及序列决策过程。

213
213

216 217 218 219 220 221 222 223 224 225 226