Page 211 - 计算机技术与网络安全研究
P. 211
第八章 大数据挖掘技术
第一节 大数据挖掘技术概述
近年来,随着物联网、人工智能、5G 通信等技术快速发展,数据呈现爆炸
式增长的态势,这就需要从数据信息中寻找具有真正意义的数据,以满足用户的
实际需求。不同的社会领域对大数据的实际需求千差万别。应用大数据挖掘技术
能够协助各个产业从中提取出需要的具有潜在价值的数据信息。首先要对数据库
或者源数据进行分析,从中筛选提取出用户需要的数据信息,并对其进行针对性
的加工,使其成为适合数据深度挖掘的模式。然后再采用适合的数据算法进行数
据提取,并对所提取的数据信息进行评估,使其以简单易懂的方式展现给用户。
总体而言,大数据挖掘技术主要包括数据提取、预处理、深度挖掘、信息模式评
估等阶段。
大数据挖掘技术常用的方法有数据关联、数据分类和数据聚类。其中,数
据关联技术主要是利用数据对象之间的关联性分析数据之间的关联程度。数据关
联技术普遍用于数据提取和数据预处理阶段。在数据关联技术中的重要技术参数
就是最小支持度和最小可信度。一般情况下,数据对象之间的联系程度采用最小
支持度这个参数进行界定,如果参数值低于最小支持度,则数据对象与所需研究
对象之间基本没有任何关联。而最小可信度是用于判断关联规则的可靠程度,如
果低于最小可信度,则证明该关联规则不可行。因此,这两个参数是提取满足用
户需求的数据集合的重要衡量标准;数据分类技术一般用于数据的深度挖掘阶段,
主要是对所提取的数据信息加以梳理,并配合数据算法或者函数等方式将其转化
成相应的数据模型,以实现对后续数据的预测分析。因此,数据分类技术的核心
在于模型的建立,借助模型对数据加以分类、分析和预测。与数据聚类技术的区
别在于数据分类技术是将不同性质的数据进行分类加以区分;数据聚类技术则是
利用数据之间的相似性,对同种数据类别的数据信息进行一定范围内的缩小。数
据聚类技术也是需要借助 K- 平均算法、AGNES 算法、STING 算法、SOM 算法、
DBSCAN 算法等实现。
203
203

