Page 18 - 基于大数据的英语翻译精准教学及实现路径
P. 18
基于大数据的英语翻译精准教学及实现路径
Accurate English Translation Teaching and Implementation Path Based on Big Data
分为语音、词汇、句法、语义等各个层面,每个层面具备不同的特征值。以语义
为例,以 Word2vec 为代表的词向量算法将语料转换为高维的数学向量,自然语
言的语义空间可以转化为可计算的高维向量空间,不同语种的数据可以进行语义
相似度计算和聚类分析。
作为大数据方法,对传统意义上的语言治理问题,具有方法层面的先进性。
长期以来濒危语言保护都是语言治理的关键议题之一,早期以编撰方言志为主,
随着语料库技术的成熟,不少濒危语言得以建库存档。但传统方法只能将濒危语
言存档成为“博物馆语言”,基于大数据算法训练的语言模型能够具备一定的生
成能力。在语言内容治理领域,过去通常以培训课程和宣传活动为主,基于大数
据的监测算法对于互联网语言内容,能够精准捕捉、及时识别和过滤,从而实现
及时干预和纠正。在城市语言管理和服务过程中,相较于传统人工方法,大数据
方法基于信息流再造和人机交互,能够将语言交互全流程追踪复盘,更好地服务
城市管理和决策。
传统的语言治理活动大多是分散的、基于人工的、不留痕的过程,相比而言
大数据语言治理方法,核心价值在于能够将语言治理“数字化”,进一步产生语
言治理的过程数据,实现语言数据服务国家治理和城市治理的协同效应。例如,
当城市语言服务数据显示:阿拉伯语在机场、政务场所等场域的翻译服务和终端
交互频次大量增加时,这一数据变化提示来自阿语地区的来访者大量增加,中阿
经贸往来在未来一段时间将持续增长,从而为国家的外汇金融政策提供先行指标。
3. 新的对象:人工智能生成语言
语言不再是人类独有的产物,也可能是大数据建模后人工智能生成的产物(以
ChatGPT 为代表)。在数智时代,语言规划的主体不仅是对人的语言使用和行为
进行规划,未来也可能需要对人工智能生成语言内容(AIGC)进行规划,使其
符合社会伦理和价值观。语言治理主体的拓展,反映了人工智能时代语言治理研
究的复杂性和艰巨性。传统的治理路径,如语言教育规划、话语规划、舆情规划
可能“失灵”。如 ChatGPT-4 在中文处理方面存在预数据质量和数量不足,新知
识缺乏以及中文对话系统局限等问题。传统意义上对人的语言规划可以通过教学、
教材、话语引导等方式进行,但对于人工智能的“黑箱”,可解释性尚待讨论,
如何进行 AI 语言的规划仍然是一个较为复杂的问题。
自 20 世纪 90 年代以来,国外语言治理从理论到实践逐步展现出“批判转向”
10

