Page 161 - 计算机应用软件开发技术研究
P. 161

第五章  基于数据挖掘技术的智能信息处理



             的提出,一是网上大型超市数据库,二是齐大学生全国计算机等级考试数据库、
             三是网络日志等数据库为数据源进行了研究和分析,提出了系统设计目标和实施
             步骤。

                 2.数据准备
                 在数据挖掘之前数据准备工作是非常重要的,数据挖掘得成功与否,数据
             准备起到至关重要的作用。数据准备是对数据源进行处理,对缺损、不一致的
             数据实施算法,以保证数据的综合性、易用性、准确性。本部分内容采用了基于

             Bayesian 网络的数据补全算法。
                 3.数据整理
                 由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对
             数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘

             有关的变量,或者转变变量。不完整数据的出现可能有多种原因:
                 ①有些数据无法获得。某些感兴趣的属性,如销售事务数据中顾客的收入、
             年龄等信息,由于涉及个人隐私等原因可能无法获得;
                 ②数据输入时疏漏。有些数据在输入时可能认为是不重要的,或者由于理解

             错误、设备故障等原因对原始数据进行了删除。这些缺损的数据,特别是某些属
             性缺少值的元组可能需要推导;
                 ③噪声数据。数据包含噪声(具有不正确的属性值)可能有多种原因。数据
             采集的设备可能出现故障,人为的或计算机的错误,数据传输中的错误(如用于

             数据传输同步的缓冲区大小的限制)等都可能导致噪声数据产生;
                 ④命名或编码不一致。在进行数据挖掘时往往要将几个不同的数据表集成到
             一起,同一个属性在不同的数据表中可能会有不同的命名或编码。例如,在零售
             商场的销售事务数据库中“顾客编号”在一个表中命名为 Customerid,而在另外

             一个表中可能命名为 Customernumber;
                 ⑤重复元组也需要清理。多个数据表在集成时很可能会产生重复元组,数据
             预处理时必须进行清除。
                 4.建立模型

                 根据数据挖掘的目标和数据特征,选择合适的模型。
                 5.评价和解释
                 对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问



                                                                                 ·149·
   156   157   158   159   160   161   162   163   164   165   166