Page 65 - 基于深度学习的人工智能技术研究

P. 65

第二章人工智能核心技术

的必要条件，同时也是自然语言处理的理论基础；另一方面，“图灵机”这个观
念由阿兰·图灵于 1936 年首先提出。“图灵机”是真正意义上的电子计算机产
生于 1946 年的重要原因。而电子计算机的出现，也为后来的机器翻译及后续的
自然语言加工奠定了坚实的基础。在 1943 年，Shannon 提出了一个基于离散马

尔可夫的可能性模式来表示该语言的自动机。然后，他在“熵”这个热力学的定
义中引入了一个概率运算。20 世纪 50 年代初期，Kleene 开始对有限自动机和规
则表示进行了深入的探讨。在 1956 年，Chomsky 还将语境独立的语法引入到了
自然语言的加工中。他们的研究结果导致了两种以规则为基础的、以概率为基础

的不同技术方法的产生。
1957 年至 1970 年属快速发展期，由于有基于规则和基于概率这两种不同方
法的存在，自然语言处理的研究在这一时期分为了两大阵营：一个是基于规则方
法的符号派（symbolic），另一个是采用概率方法的随机派（stochastic）。在此期间，

两者的理论和实践都有了很大的进展。50 年代中叶至 60 年代中叶，象征主义学
派以乔姆斯基为首，在形式语言学和产生语法方面展开了一系列的探索。而在此
期间，贝叶斯统计分析的随机性理论也有了长足的发展。该阶段主要的研究结果
有：宾夕法尼亚大学于 1959 年开发出 TDAP，并在此基础上构建了布朗美国英

语语料库。1967 年，美国心理学家 Neisser 提出认知心理学的概念，直接把自然
语言处理与人类的认知联系起来了。
1971 年至 1993 年属低速发展期，随着研究深入，一连串新问题接连涌出，
导致许多人对此丧失了信心，自此，信息处理进入了低谷期。尽管如此，研究仍

在不断进行，并有很多新的发展。之后，自然语言处理研究者对于过去的研究进
行了反思，事态逐渐有了起色，研究也在慢慢复苏。
1994 年至今属复苏融合期，互联网的商业化和同期网络技术的发展使得基
于自然语言的信息检索和信息抽取的需求变得更加突出。同时，计算机的速度和

存储量的大幅增加，使得语音和语言处理的商品化开发成为可能。
谈及国内发展，中国阿里达摩院的自然语言处理研究团队最近提出一种名
为 StructBERT 的优化模型，它能让机器更好地掌握人类语法，加深对自然语言
的理解。使用该模型好比给机器内置一个“语法识别器”，使机器在面对语序错

乱或不符合语法习惯的词句时，仍能准确理解并给出正确的表达和回应，大大提
高机器对词语、句子以及语言整体的理解力。这一技术已广泛使用于阿里旗下阿

60 61 62 63 64 65 66 67 68 69 70