Page 16 - 基于大数据的英语翻译精准教学及实现路径
P. 16
基于大数据的英语翻译精准教学及实现路径
Accurate English Translation Teaching and Implementation Path Based on Big Data
神经科学等多学科紧密相关。”有学者将大数据视为科学研究的第四种范式,也
就是所谓的数据密集型研究(data-intensive scientific discovery)。科学研究的第
一范式是实验,对关键因素进行描述和记录,形成相应理论;由于很多实验无法
进行,理论推演成了第二范式,以相对论等物理学理论为代表,这些理论并非诞
生于实验室,而是通过理论推演得来,后经观测证实;得益于计算机科学的发展,
计算机模拟仿真的第三研究范式应运而生;由于数据的爆炸性增长,大数据研究
被称为第四科学范式。前 3 种范式的语言学研究当前比较常见,例如以实验语音
学为代表的实验范式,以句法学为代表的理论推演范式,以及通过贝叶斯仿真方
法研究汉藏语发源地。大数据作为第四种范式为语言学研究带来了新的方法,推
动了语言学研究的创新和进步。通过大数据的应用,我们可以更好地理解语言和
语言生活的复杂性,探索语言与人类社会、经济、文化等方面的关系,为数据驱
动的跨学科创新提供更广阔的空间。
2. 语言学研究与大数据
语言学领域当前关涉大数据的研究大致可以分为 3 类。第一类研究探讨大数
据对语言学研究的方法论意义。文旭认为“大数据时代三大转变在认知语言学研
究上会大大地改变我们的本体论、认识论和方法论”。梁茂成认为“以深度学习
为代表的大数据方法将突破语料库容量扩大带来的方法瓶颈。”第二类研究关注
到自然语言处理(NLP)中大数据的作用,进而从语言学理论出发,指出具有社
会场景化的语言大数据对 NLP 的应用前景。第三类研究面向具体的应用语言学
问题开展,如相关研究通过大数据探讨“一带一路”沿线国家对中文学习的关注度。
作为一项概念的提出,语言大数据学理上存在几个基本内涵问题尚待解决。首先,
大数据和传统的语言研究中的语料数据存在哪些区别,只是单纯数据规模的扩大
吗?第二,学界缺乏语言和大数据之间的关系论述,大数据作为一种新的方法和
范式,和传统意义上收集语料建立语料库开展研究,方法上的创新体现在何处?
大数据概念的提出最早源自数据科学,其主要特性概括为 4V,即规模大
(volume)、种类多(variety)、价值低(value)和存取速度快(velocity)。
但在各类语言研究的文献中,学者们更多关注数据的规模,而忽视了大数据的首
要特征在于数据维度高。“维度”(dimension)指的是数据的特征值,“诸多
领域产生了大量的高维数据,例如基因数据、天体物理数据、图像数据,等等。
这些数据有一个共同的特点是样本的维数(特征)远远大于样本个数,即特征要
8

