Page 172 - 计算机应用软件开发技术研究
P. 172

计算机应用软件开发技术研究
            Research on Computer Application Software Development Technology

                二、聚类的种类

                聚类也是数据挖掘中研究得较多的方向,方法比较多,主要有以下几类。

                (一)划分的方法
                1.典型划分方法
                K-平均,k-中心点。
                ①k-平均方法:k-平均算法以 k 为参数,把 n 个对象分为 k 个簇,簇内的对
            象具有较高相似度,相似度的计算根据一个簇中对象的平均值来进行。

                ②k-中心点方法:k-中心点方法选择簇中位置最中心点作为参照点,k-中心
            点方法聚类的策略是:首先,每个簇随意选择一个代表对象;其次,剩余的对象
            根据其与代表对象的距离分配给某个簇;最后,反复地用合适的非代表对象代替
            代表对象以改进聚类的质量。

                (二)层次的方法
                层次方法有两种方法:凝聚的层次分类,分裂的层次分类。
                1.凝聚的层次分类
                这种方法自底向上,先将每个对象看作一个簇,然后逐渐合并成越来越大的

            簇,直到某个终止条件满足。
                2.分裂的层次分类
                这种方法自顶向下,先将所有对象看作一个簇,然后逐渐分裂成越来越小
            的簇,直到某个终止条件满足。层次分类的方法难点在于分裂或合并的点难以确

            定,且已分裂或合并的簇之间不能交换对象,也不能回退,因而伸缩性不好。有
            几种改进方法,如 BIRCH 方法。它首先用树结构对对象进行层次划分,然后采
            用其他聚类算法对聚类结果求精。还有 CURE,它采用固定数目的代表对象来表
            示每个簇,然后依据一个定义的分数向着聚类中心对它们进行收缩。

                (三)基于密度的方法
                基于密度的聚类方法对于发现不规则形状的聚类结果是一个较好的方法,它
            将簇看作是数据空间中被低密度区域分割开的高密度对象区域。
                1.DBSCAN(Density 一 Based SPa tial Clustering of APPlieation with

            Noise)
                DBSCAN 是一个基于密度的聚类算法,它将具有足够高密度的区域划分为




            ·160·
   167   168   169   170   171   172   173   174   175   176   177