Page 164 - 计算机应用软件开发技术研究
P. 164
计算机应用软件开发技术研究
Research on Computer Application Software Development Technology
一、关联规则的相关定义及分类
(一)关联规则的相关定义
定义 1:设 =I {i1, i2, … , im}是项的集合,事务数据库 D 是由一系列具有唯
I
一标识 TID 的事务组成,每个事务对应 I 上的一个子集,即 T ⊆ 。关联规则可
以表示为 X ⇒ Y 的逻辑蕴涵式,其中 X ⊆ I, Y ⊆ I,且 X ∩ I = ∅。
定义 2:关联规则 X ⇒ Y 支持度 S 是指事务数据库中包含 X∪Y 的事务占事
务数据库 D 的百分比。
定义 3:关联规则 X ⇒ Y 置信度 C 是指事务数据库中包含 X∪Y 的事务数
与包含 X 的事务数之比。
support(X ∪ Y)
confidence (X ⇒ Y) =
support(X)
一般地,给定一个数据库,挖掘关联规则的问题可以转换为寻找满足最小支
持度和最小置信度阈值的强关联规则过程,分为两步:一是生成所有频繁项集,
即找出支持度大于等于最小支持度阈值的项集;二是生成强关联规则,即找出频
繁项集中大于等于最小置信度阈值的关联规则。
(二)关联规则的分类
1.基于规则中处理的变量类别
关联规则分为布尔型和多值属性型。布尔型关联规则处理的是离散、种类化
的数据,它研究项是否在事务中出现;多值属性关联规则又可分为数量属性和分
类属性,它显示了量化的项或属性之间的关系。在挖掘多值属性关联规则时,通
常将连续属性运用离散(等深度桶、部分 K 度完全法)、统计学方法划分为有
限个区间,每个区间对应一个属性,分类属性的每个类别对应一个属性,再对转
换后的属性运用布尔型关联规则算法进行挖掘。
2.基于规则中数据的抽象层次
关联规则分为单层和多层。实际应用中,数据项之间有价值的关联规则常出
现在较高的概念层中,因此挖掘多层次关联规则比单层关联规则能得到更深入的
知识。根据规则中对应项目的粒度层次,多层关联规则可以划分为同层和层间关
联规则。多层关联规则挖掘的两种设置支持度的策略为统一的最小支持度和不同
层次设置不同的最小支持度。前者相对而言容易生成规则,但未考虑到各个层次
·152·

