Page 65 - 基于深度学习的人工智能技术研究
P. 65
第二章 人工智能核心技术
的必要条件,同时也是自然语言处理的理论基础;另一方面,“图灵机”这个观
念由阿兰·图灵于 1936 年首先提出。“图灵机”是真正意义上的电子计算机产
生于 1946 年的重要原因。而电子计算机的出现,也为后来的机器翻译及后续的
自然语言加工奠定了坚实的基础。在 1943 年,Shannon 提出了一个基于离散马
尔可夫的可能性模式来表示该语言的自动机。然后,他在“熵”这个热力学的定
义中引入了一个概率运算。20 世纪 50 年代初期,Kleene 开始对有限自动机和规
则表示进行了深入的探讨。在 1956 年,Chomsky 还将语境独立的语法引入到了
自然语言的加工中。他们的研究结果导致了两种以规则为基础的、以概率为基础
的不同技术方法的产生。
1957 年至 1970 年属快速发展期,由于有基于规则和基于概率这两种不同方
法的存在,自然语言处理的研究在这一时期分为了两大阵营:一个是基于规则方
法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。在此期间,
两者的理论和实践都有了很大的进展。50 年代中叶至 60 年代中叶,象征主义学
派以乔姆斯基为首,在形式语言学和产生语法方面展开了一系列的探索。而在此
期间,贝叶斯统计分析的随机性理论也有了长足的发展。该阶段主要的研究结果
有:宾夕法尼亚大学于 1959 年开发出 TDAP,并在此基础上构建了布朗美国英
语语料库。1967 年,美国心理学家 Neisser 提出认知心理学的概念,直接把自然
语言处理与人类的认知联系起来了。
1971 年至 1993 年属低速发展期,随着研究深入,一连串新问题接连涌出,
导致许多人对此丧失了信心,自此,信息处理进入了低谷期。尽管如此,研究仍
在不断进行,并有很多新的发展。之后,自然语言处理研究者对于过去的研究进
行了反思,事态逐渐有了起色,研究也在慢慢复苏。
1994 年至今属复苏融合期,互联网的商业化和同期网络技术的发展使得基
于自然语言的信息检索和信息抽取的需求变得更加突出。同时,计算机的速度和
存储量的大幅增加,使得语音和语言处理的商品化开发成为可能。
谈及国内发展,中国阿里达摩院的自然语言处理研究团队最近提出一种名
为 StructBERT 的优化模型,它能让机器更好地掌握人类语法,加深对自然语言
的理解。使用该模型好比给机器内置一个“语法识别器”,使机器在面对语序错
乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提
高机器对词语、句子以及语言整体的理解力。这一技术已广泛使用于阿里旗下阿
57

