Page 270 - 中英科学技术常用词(频率)词典
P. 270

附录



            的现象,因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工
            具以及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的
            理解。

                不平衡现象是客观世界的规律。银河系星球的大小和数量不平衡,地球上植物
            的大小和高度不平衡,不同人的智力发育不平衡等等。分析不平衡现象,正确用于
            科技术语的研究审定、定义和发布,可以加强术语工作的科学性,提高工作效率。
                常用汉字是汉字总数的一小部分,为广大的人民群众社会生活使用,非常用

            汉字多用于各行各业的科技术语。因此,研究科技文献术语的汉字分布对术语定
            义也具有重要作用。
                在长尾分布的水平方向上。越向右其专业深度越强,普及性越差。越向左其
            普及性通用性越强,而专业深度性越弱。在中国的汉字体系中,所谓的“死字”

            正是专业性极其深邃的科学技术用字。使用人数虽然极其稀少,对科学研究却极
            其重要。
                术语也是这样,例如,数学术语:子环、子域、同构。化学专业的术语:二
            棕榈酰磷脂酰胆碱、孕酮。气象术语:旗云、冷涡等。


                4 核心术语集合的数学模型计算公式

                4.1 计算过程
                核心术语集合的过程如下:

                ①首先获取专业术语的全部词表,进行标准化的预处理(半角到全角字符的
            转换,夹杂标点符号与英文字母的处理),而后进行分词与词性标注。
                ②对分词后的术语集合汇总统计,提取术语部件,即术语基本词汇,对基本
            术语频次进行排序。获得术语词频表。

                ③在术语词频表的基础上,使用计算机进行计算,获取核心术语与非核心术
            语的分界点。从而区分核心术语集与非核心术语集。由计算机输出核心术语集。
                4.2 计算公式
                核心术语的数量和分布主要是计算核心术语的数量,确定核心术语集合的范

            围,核查审定最基本的、需要重点优先定义的术语核心词汇。
                计算方法如下:
                计算各词序号的累计频次数与总词次百分比,命名为 A。



            ·234·
   265   266   267   268   269   270   271   272   273   274   275