Page 268 - 中英科学技术常用词(频率)词典
P. 268

附录



                这样,以单词序号(例如:n)为该单词横坐标上的点(x),以该单词的频
            次为纵坐标点(y)则在直角坐标系下这些点的连接拟合后,就构成了一条曲线。
            描述这条曲线的方程,整个曲线在 1 到不同单词总数 W 区间曲线下的面积,就

            构成文本容量 T,也就是 1 → T 之间曲线的积分,也就构成了词频分布方程中的
            总词次。
                词频曲线方程的参数求解,在数学上多取对数转换为直线方程,采用最小二
            乘法进行最佳拟合求解。从而获得曲线方程的系数数据,以反映词频分布变化的

            规律。
                齐夫定律的词频数学表达式如下所示:
                                                 f=cr -1
                式中,f 为词频数;r 为单词序号;c 为系数。

                当试验次数增多或样本容量相当大时,频率 f 转变为概率 P。就得出如下公式,
            即单参数词频概率分布公式,即齐夫定律的数学表达式:
                                                P r =cr -1
                式中,P r 为刚单词出现的概率;c 为系数。

                1936 年,美国语言学家 M.Joos 对 zipf 的公式,进行修正得出双参数词频分
            布定律:
                                                P r  =cr -b
                式中,b、c 为系数。

                英籍法国数学家 B.Mandelbrot 用概率论和信息论方法通过严格的数学推导,
            从理论上提出了词的三参数词频分布规律:
                                              P r  =c(r+a) -b
                式中,a、b、c 为系数。

                词频计算所求出公式的参数,近似反映了词频分布的整体概貌,词频的统计
            与概率数据,是离散的数据而不是连续的函数,所以具体的计算应根据离散数据
            求和的方法,而不能采取连续函数的积分运算。
                这些公式都是数学的连续函数,实际上单词排序的级(序号),是从 1 开始

            的正整数。在计算核心术语集合的界点时,使用离散函数的求和公式来计算。
                齐夫定律已经在语言学、情报学、地理学、经济学、信息科学等领域有了广
            泛的应用,而且取得了不少可喜成果。中国数学家和语言学家周海中曾经指出:



            ·232·
   263   264   265   266   267   268   269   270   271   272   273