Page 267 - 中英科学技术常用词(频率)词典
P. 267
附录
字是客观世界实体图形描述的高度抽象。核心术语的关键解读在于“核”字。“核”
是汉字典型的形声字,“核”字的表义部首分类属于“木”,“核心术语”的“核”
字与木的关系是什么?
桃树、杏树、枣树等所结的果实之核,即桃核、杏核和枣核。
按新华字典的解释是:果实中坚硬并包含果仁的部分
核:<名>(形声。从木,亥声。本义:果核)。
心:<名>(象形。据甲骨文和小篆,中间像心,外面像心的包络。本义:
心脏)。
核心:核之心也,谓之“仁”。植物代代遗传繁殖之要也。亦有杏仁、桃仁、
枣仁之称。食品则有杏仁酥等。核之心对于植物的代代繁殖最为重要。
2.3.2 “核心术语”的定义
核心 [core] :核之心也。
核心术语 [core term] :起到中心作用,构词性能强的术语。
核心术语集合 [core term set] :核心术语的集合,简称核心术语集。
3 核心术语集合计算模型的理论基础
3.1 齐夫定律
关于单词在文献中出现频次的齐夫定律(Zipf's Law)。是 1935 年由美国哈
佛大学语言学教授 George K. Zipf 对英语文献中单词出现的频次进行大量统计以
检验前人的定量化公式而提出的一个数学公式,也是文献学三大定律之一。1948
年,时年 46 岁的齐夫完成了他的专著《人类行为与最省力法则——人类生态学
引论》,1949 年首次出版。“最省力法则”较好地解释了齐夫定律的内在成因
和机制,是齐夫定律的理论基础。由于他的贡献,人们称单参数词频分布定律为
齐夫定律(Zipf’s Law)。
中国著名语言学家冯志伟在《数理语言学》中对词频分布的三个公式进行了
详细讲解叙述 [5] 。齐夫根据中篇小说《尤利西斯》所编写的频率词典得到其函数
表达式。在这本频率词典中,总计使用了 29899 个单词,一个单词只出现一次,
词次为 1。总计使用 26 万多词次(也称为文本容量 T,即条数)。按每个单词使
用次数的多少进行排序,可以获得每个单词的序号(正整数)以及该序号单词在
书中出现的次数,即该序号单词出现的频次,也称为频率。
·231·

