Page 165 - 计算机应用软件开发技术研究
P. 165

第五章  基于数据挖掘技术的智能信息处理



             的精度,容易造成信息丢失和信息冗余问题,后者增加了挖掘的灵活性。
                 3.基于规则中数据的维数
                 关联规则分为单维和多维。单维关联规则处理的对象只是一维的;多维关联

             规则处理的则是两个或两个以上的变量。根据同一维在规则中是否重复出现,多
             维关联规则又可分为维内关联规则和混合关联规则。

                 二、关联规则挖掘质量的改善


                 (一)用户主观层面
                 实际的关联规则挖掘中,用户常常希望得到某些特定的知识类型,用户的参
             与决定规则的有效性、可行性。因此,应该根据用户信息的需求设定约束条件以
             达到发现更实用、用户更感兴趣的规则目的。基于约束的规则挖掘方法将提前设

             定的约束条件与算法有机结合,增强了挖掘的实用性。早期的基于项约束的关联
             规则有基于 Apriori 思想的 Mul-tipleJoins、Recorder 和 Direct 三种算法,后来崔
             立新等人在此基础上提出了数据库过滤算法 Filtering 和符合约束条件的频繁项集
             生成算法 Separate。运用 Filtering 算法过滤数据库 D 得到符合约束条件 B 的数据

             库 D',之后再求取频繁项集。Separate 算法直接生成满足约束条件 B 的候选集,
             并利用 join 函数生成大部分的候选集,减少了扫描次数,性能明显优于 Recorder
             和 Direct 算法。ACARMT 算法结合了 Separate 算法及数据垂直分布算法的优
             势,根据约束条件产生基础频繁项目集,再利用事务 ID 集合存储项目集信息,

             避免了重复扫描数据库和基于数据垂直分布算法无法适用于大数据量挖掘的不
             足。MBALM 算法利用属性位复用技术构建候选区间,并通过候选区间端点值的
             递增和递减双向变化来控制产生候选频繁项,减少了多余候选项,提高了计算效
             率。董雁适等人提出了基于 FP-growth 的项约束算法 FPC,调用 FP-tree、C-tree
             算法构造高频模式树和约束树,再通过 FPCgrowth 算法调用约束条件检查函数

             check-constraints 生成满足约束条件的高频项集。宋余庆等人关于有项约束的最
             大频繁项目集进行讨论,给出了 CMFIMA 算法,根据 FP-tree 构造原理将求满足
             约束条件的最大频繁项集 X 的支持数转变为统计 FP-treeD 中包含 X 的路径数来

             生成最大频繁项集。DCMFI 算法在挖掘频繁项集过程中随时删除不满足约束条
             件的分支不再产生候选集,其节点支持数由 FP-treeD 中同名节点求和计算,相
             对于 CMFIMA 算法速度大幅提升。DFTFH 算法将 FP-tree 和概念格两种数据结



                                                                                 ·153·
   160   161   162   163   164   165   166   167   168   169   170