Page 65 - 基于深度学习的人工智能技术研究
P. 65

第二章  人工智能核心技术



              的必要条件,同时也是自然语言处理的理论基础;另一方面,“图灵机”这个观
              念由阿兰·图灵于 1936 年首先提出。“图灵机”是真正意义上的电子计算机产
              生于 1946 年的重要原因。而电子计算机的出现,也为后来的机器翻译及后续的
              自然语言加工奠定了坚实的基础。在 1943 年,Shannon 提出了一个基于离散马

              尔可夫的可能性模式来表示该语言的自动机。然后,他在“熵”这个热力学的定
              义中引入了一个概率运算。20 世纪 50 年代初期,Kleene 开始对有限自动机和规
              则表示进行了深入的探讨。在 1956 年,Chomsky 还将语境独立的语法引入到了
              自然语言的加工中。他们的研究结果导致了两种以规则为基础的、以概率为基础

              的不同技术方法的产生。
                  1957 年至 1970 年属快速发展期,由于有基于规则和基于概率这两种不同方
              法的存在,自然语言处理的研究在这一时期分为了两大阵营:一个是基于规则方
              法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。在此期间,

              两者的理论和实践都有了很大的进展。50 年代中叶至 60 年代中叶,象征主义学
              派以乔姆斯基为首,在形式语言学和产生语法方面展开了一系列的探索。而在此
              期间,贝叶斯统计分析的随机性理论也有了长足的发展。该阶段主要的研究结果
              有:宾夕法尼亚大学于 1959 年开发出 TDAP,并在此基础上构建了布朗美国英

              语语料库。1967 年,美国心理学家 Neisser 提出认知心理学的概念,直接把自然
              语言处理与人类的认知联系起来了。
                  1971 年至 1993 年属低速发展期,随着研究深入,一连串新问题接连涌出,
              导致许多人对此丧失了信心,自此,信息处理进入了低谷期。尽管如此,研究仍

              在不断进行,并有很多新的发展。之后,自然语言处理研究者对于过去的研究进
              行了反思,事态逐渐有了起色,研究也在慢慢复苏。
                  1994 年至今属复苏融合期,互联网的商业化和同期网络技术的发展使得基
              于自然语言的信息检索和信息抽取的需求变得更加突出。同时,计算机的速度和

              存储量的大幅增加,使得语音和语言处理的商品化开发成为可能。
                  谈及国内发展,中国阿里达摩院的自然语言处理研究团队最近提出一种名
              为 StructBERT 的优化模型,它能让机器更好地掌握人类语法,加深对自然语言
              的理解。使用该模型好比给机器内置一个“语法识别器”,使机器在面对语序错

              乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提
              高机器对词语、句子以及语言整体的理解力。这一技术已广泛使用于阿里旗下阿


                                                                                      57
   60   61   62   63   64   65   66   67   68   69   70