Page 269 - 中英科学技术常用词(频率)词典
P. 269
附录
齐普夫定律是描述词频分布规律的强大数学工具,作为经验定律,它仍有不足之
处,有待进一步完善。
冯志伟指出:“关于词的频率分布问题是比较复杂的。”“公式本身的性质
决定了文本中不能存在频率相同的词,这与语言的客观事实是不符合的。频率的
雷同数是随着序号的降低而减少的,越是序号高的单词,频率相同的越多。可见,
词的频率分布规律还有必要进一步加以研究。” [5]
齐夫定律是对词频分布的近似描述,使用了连续函数,可以计算并求出特征
数据。对于词频分布的规律,反映的是正整数的离散数据,词序是整数,频次(注:
有些文章使用频率)也是整数,因此对齐夫定律在计算上采用离散函数计算的方
法计算,用数列的求和代替积分,获取不同单词序号的词集合数与频次总和之间
的关系。
这些公式都是数学的连续函数,实际上单词排序的级(序号),是从 1 开始
的正整数。应该使用离散函数的求和公式来计算。
3.2 帕累托定律(长尾定律,不平衡定律)
帕累托分布(Pareto Distribution)是以 19 世纪末 20 世纪初意大利经济学家
维弗雷多·帕雷托命名的,是从大量真实世界的现象中发现的幂次定律分布,这
个分布在经济学以外,也被称为布拉德福分布。帕累托因对意大利全国 20% 的
人口拥有 80% 的财产而 80% 的人口只有 20% 的财产的统计观察而著名,后来被
约瑟夫·朱兰和其他人概括为帕累托法则又称为二八定律或 80/20 法则,后来进
一步概括为帕累托分布的概念。帕累托法则(Pareto’s principle)也叫帕累托特定律、
朱伦法则(Juran’s Principle)、关键少数法则(Vital FeRule)、不重要多数法则(Trivial
Many Rule)最省力的法则、不平衡原则等,被广泛应用于社会学及企业管理学等。
帕累托分布具有较长的尾部,也称为长尾分布。
帕累托分布在许多领域有着大量的应用。例如,学习一门外语,应该先掌握
哪些单词最省力?科学普及文献应该选用哪些科技词汇?小学语文教材识字如何
优选常用字的学习序列问题?中文部首的学习教育如何选择顺序?这些,都需要
数学模型。
3.3 幂律分布
齐普夫分布和帕累托分布都是幂律分布,具有长尾的特点。
幂律分布是自然界与社会生活中存在各种各样性质迥异的而具有相同规律
·233·

