Page 17 - 基于大数据的英语翻译精准教学及实现路径
P. 17

第一章  大数据技术概述及其与教育的结合


               素和样本量可能都趋于无穷大的增长”。由于数据规模大且类型复杂,在这种情
               况下传统的统计学和线性分析方法(如相关系数、回归等)难以刻画数据内部的
               复杂关系,因此产生了一系列新的算法来处理高维度的大规模数据。因此大数据

               不单指语料规模的扩大,同时也是数据结构和方法的不同,可以认为是一种研究
               范式的转变。
                   大数据的数学方法在过去几十年间经历了长足的发展,产生了包括关联分析、
               聚类分析、神经网络等各种类型的方法,其中每一类又有不同的具体算法,如聚

               类算法常见的就包括决策树、神经网络、贝叶斯分类器等,通过这些算法从大规
               模、高维度的复杂数据中训练人工智能模型,发现有价值的信息。相关实证研究
               证明,大数据范式对于语言本体和应用研究具有可能性和适用性。

                   (二)基于大数据的语言治理研究内涵
                   基于大数据的语言治理研究具有三重内涵:新的领域(语言数据参与社会治
               理)、新的方法(以关联分析、聚类分析、神经网络等为代表的大数据算法)和
               新的对象(人工智能生成语言)。语言治理的“数据转向”具备十分丰富的理论
               内涵和实践前景。

                   1. 新的领域:语言数据参与社会治理
                   语言数据可以作为大数据集合中的一个或多个维度,致力于解决社会治理的
               具体问题。如在中国家庭追踪调查中,有十余个语言相关的维度,这些维度可以

               参与到特定问题的大数据研究中。从应用角度来看,既然语言数据的变量和其他
               变量能够构成相关性,语言数据参与到社会治理就存在可能性。比如在国家安全
               理论和实践中,研究者可以利用深度学习,建立国家安全和特定语言大数据特征
               值之间的关系。因此,当语言数据被纳入社会经济大数据的挖掘过程,凭借其丰
               富的信息特征,应用前景广阔,比如可以通过社交媒体大数据的信息抽取,进行

               反恐预防和舆情分析。一些研究也通过语言数据和医疗数据关联,探索老年人阿
               尔兹海默症和语言使用的相关提示表征。可以预见,未来语言数据能够与特定社
               会经济治理实践结合起来,共同服务于心理干预、社会治安、民生问题、反恐反

               诈等领域。
                   2. 新的方法:以关联分析、聚类分析、神经网络等为代表的大数据算法
                   以关联分析、聚类分析、神经网络等为代表的大数据算法,可以为语言治理
               研究带来新的方法。语言数据自身具备大规模、高维度的特征。语言本体研究划



                                                                                        9
   12   13   14   15   16   17   18   19   20   21   22