Page 221 - 计算机技术与网络安全研究
P. 221

第九章 人工智能技术



            来判断动作的好坏进而训练模型的方法。强化学习中探索和开发的权重高低是一
            个难题:为获得更好的奖励必须尽量选择能获得高奖励的动作,但是为了获得更
            好的奖励,也必须挖掘未知的动作。
                 强化学习的基础来源于行为心理学。在 1911 年 Thorndike 提出了效用法则,
            即在环境中让人或者动物感到舒服的动作,人或者动物会不断强化这一动作。反

            之,如果人或者动物感觉到不舒服的行为,人或者动物会减少这种动作。强化学
            习换言之是强化得到奖励的行为,弱化受到惩罚的行为。通过试错的机制训练模
            型,找到最佳的动作和行为获得最大的回报。它模仿了人或者动物学习的模式,

            并且不需要引导智能体向某个方向学习。智能体可以自主学习,不需要专业知识
            的引导和人力的帮助。
                 基础的强化学习算法有使用表格学习的 q-learning,sarsa 以及使用神经网络
            学习的 DQN,直接输出行为的 PolicyGradients 及 ActorCritic 等。强化学习算法应
            用到游戏领域取得了不错的成果,在星际和潮人篮球的 AI 训练方面都取得了不

            错的成果。
                 (三)自然语言处理
                 自然语言处理(NLP)是指计算机拥有识别理解人类文本语言的能力,是计

            算机科学与人类语言学的交叉学科。自然语言是人与动物之间的最大区别,人类
            的思维建立在语言之上,所以自然语言处理也就代表了人工智能的最终目标。机
            器若想实现真正的智能自然语言处理是必不可少的一环。自然语言处理分为语法
            语义分析、信息抽取、文本挖掘、信息检索、机器翻译、问答系统和对话系统 7
            个方向。句法语义分析,是对于给定的语言提取词进行词性和词义分析,然后分

            析句子的句法、语义角色和多词义选取。信息抽取,是指从给定的一段文字中抽
            取时间、地点和人物等主要信息,以及因果关系等句子关系。文本挖掘,对大量
            的文档提供自动索引,通过关键词或其他有用信息的输入自动检索出需要的文档

            信息。机器翻译,输入源文字并自动将源文字翻译为另一种语言,根据媒介的不
            同可以分为很多的细类,如文本翻译、图形翻译及手语翻译等。问答系统,是提
            出一个文字表达的问题,计算机可以给出准确的答案,过程中需要对问题进行语
            义分析,然后在资料库中寻出对应答案。对话系统,指计算机可以联系上下文和
            用户进行聊天及交流等任务,针对不同的用户采用不同的回复方式等功能。自然

            语言处理主要有 5 类技术,分别是分类、匹配、翻译、结构预测及序列决策过程。


                                                                                    213
                                                                                    213
   216   217   218   219   220   221   222   223   224   225   226