Page 221 - 计算机技术与网络安全研究
P. 221
第九章 人工智能技术
来判断动作的好坏进而训练模型的方法。强化学习中探索和开发的权重高低是一
个难题:为获得更好的奖励必须尽量选择能获得高奖励的动作,但是为了获得更
好的奖励,也必须挖掘未知的动作。
强化学习的基础来源于行为心理学。在 1911 年 Thorndike 提出了效用法则,
即在环境中让人或者动物感到舒服的动作,人或者动物会不断强化这一动作。反
之,如果人或者动物感觉到不舒服的行为,人或者动物会减少这种动作。强化学
习换言之是强化得到奖励的行为,弱化受到惩罚的行为。通过试错的机制训练模
型,找到最佳的动作和行为获得最大的回报。它模仿了人或者动物学习的模式,
并且不需要引导智能体向某个方向学习。智能体可以自主学习,不需要专业知识
的引导和人力的帮助。
基础的强化学习算法有使用表格学习的 q-learning,sarsa 以及使用神经网络
学习的 DQN,直接输出行为的 PolicyGradients 及 ActorCritic 等。强化学习算法应
用到游戏领域取得了不错的成果,在星际和潮人篮球的 AI 训练方面都取得了不
错的成果。
(三)自然语言处理
自然语言处理(NLP)是指计算机拥有识别理解人类文本语言的能力,是计
算机科学与人类语言学的交叉学科。自然语言是人与动物之间的最大区别,人类
的思维建立在语言之上,所以自然语言处理也就代表了人工智能的最终目标。机
器若想实现真正的智能自然语言处理是必不可少的一环。自然语言处理分为语法
语义分析、信息抽取、文本挖掘、信息检索、机器翻译、问答系统和对话系统 7
个方向。句法语义分析,是对于给定的语言提取词进行词性和词义分析,然后分
析句子的句法、语义角色和多词义选取。信息抽取,是指从给定的一段文字中抽
取时间、地点和人物等主要信息,以及因果关系等句子关系。文本挖掘,对大量
的文档提供自动索引,通过关键词或其他有用信息的输入自动检索出需要的文档
信息。机器翻译,输入源文字并自动将源文字翻译为另一种语言,根据媒介的不
同可以分为很多的细类,如文本翻译、图形翻译及手语翻译等。问答系统,是提
出一个文字表达的问题,计算机可以给出准确的答案,过程中需要对问题进行语
义分析,然后在资料库中寻出对应答案。对话系统,指计算机可以联系上下文和
用户进行聊天及交流等任务,针对不同的用户采用不同的回复方式等功能。自然
语言处理主要有 5 类技术,分别是分类、匹配、翻译、结构预测及序列决策过程。
213
213

