Page 17 - 基于大数据的英语翻译精准教学及实现路径
P. 17
第一章 大数据技术概述及其与教育的结合
素和样本量可能都趋于无穷大的增长”。由于数据规模大且类型复杂,在这种情
况下传统的统计学和线性分析方法(如相关系数、回归等)难以刻画数据内部的
复杂关系,因此产生了一系列新的算法来处理高维度的大规模数据。因此大数据
不单指语料规模的扩大,同时也是数据结构和方法的不同,可以认为是一种研究
范式的转变。
大数据的数学方法在过去几十年间经历了长足的发展,产生了包括关联分析、
聚类分析、神经网络等各种类型的方法,其中每一类又有不同的具体算法,如聚
类算法常见的就包括决策树、神经网络、贝叶斯分类器等,通过这些算法从大规
模、高维度的复杂数据中训练人工智能模型,发现有价值的信息。相关实证研究
证明,大数据范式对于语言本体和应用研究具有可能性和适用性。
(二)基于大数据的语言治理研究内涵
基于大数据的语言治理研究具有三重内涵:新的领域(语言数据参与社会治
理)、新的方法(以关联分析、聚类分析、神经网络等为代表的大数据算法)和
新的对象(人工智能生成语言)。语言治理的“数据转向”具备十分丰富的理论
内涵和实践前景。
1. 新的领域:语言数据参与社会治理
语言数据可以作为大数据集合中的一个或多个维度,致力于解决社会治理的
具体问题。如在中国家庭追踪调查中,有十余个语言相关的维度,这些维度可以
参与到特定问题的大数据研究中。从应用角度来看,既然语言数据的变量和其他
变量能够构成相关性,语言数据参与到社会治理就存在可能性。比如在国家安全
理论和实践中,研究者可以利用深度学习,建立国家安全和特定语言大数据特征
值之间的关系。因此,当语言数据被纳入社会经济大数据的挖掘过程,凭借其丰
富的信息特征,应用前景广阔,比如可以通过社交媒体大数据的信息抽取,进行
反恐预防和舆情分析。一些研究也通过语言数据和医疗数据关联,探索老年人阿
尔兹海默症和语言使用的相关提示表征。可以预见,未来语言数据能够与特定社
会经济治理实践结合起来,共同服务于心理干预、社会治安、民生问题、反恐反
诈等领域。
2. 新的方法:以关联分析、聚类分析、神经网络等为代表的大数据算法
以关联分析、聚类分析、神经网络等为代表的大数据算法,可以为语言治理
研究带来新的方法。语言数据自身具备大规模、高维度的特征。语言本体研究划
9

