Page 268 - 中英科学技术常用词(频率)词典
P. 268
附录
这样,以单词序号(例如:n)为该单词横坐标上的点(x),以该单词的频
次为纵坐标点(y)则在直角坐标系下这些点的连接拟合后,就构成了一条曲线。
描述这条曲线的方程,整个曲线在 1 到不同单词总数 W 区间曲线下的面积,就
构成文本容量 T,也就是 1 → T 之间曲线的积分,也就构成了词频分布方程中的
总词次。
词频曲线方程的参数求解,在数学上多取对数转换为直线方程,采用最小二
乘法进行最佳拟合求解。从而获得曲线方程的系数数据,以反映词频分布变化的
规律。
齐夫定律的词频数学表达式如下所示:
f=cr -1
式中,f 为词频数;r 为单词序号;c 为系数。
当试验次数增多或样本容量相当大时,频率 f 转变为概率 P。就得出如下公式,
即单参数词频概率分布公式,即齐夫定律的数学表达式:
P r =cr -1
式中,P r 为刚单词出现的概率;c 为系数。
1936 年,美国语言学家 M.Joos 对 zipf 的公式,进行修正得出双参数词频分
布定律:
P r =cr -b
式中,b、c 为系数。
英籍法国数学家 B.Mandelbrot 用概率论和信息论方法通过严格的数学推导,
从理论上提出了词的三参数词频分布规律:
P r =c(r+a) -b
式中,a、b、c 为系数。
词频计算所求出公式的参数,近似反映了词频分布的整体概貌,词频的统计
与概率数据,是离散的数据而不是连续的函数,所以具体的计算应根据离散数据
求和的方法,而不能采取连续函数的积分运算。
这些公式都是数学的连续函数,实际上单词排序的级(序号),是从 1 开始
的正整数。在计算核心术语集合的界点时,使用离散函数的求和公式来计算。
齐夫定律已经在语言学、情报学、地理学、经济学、信息科学等领域有了广
泛的应用,而且取得了不少可喜成果。中国数学家和语言学家周海中曾经指出:
·232·

