Page 236 - 大数据背景下网络安全问题研究
P. 236
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
1.数据清理
数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪声数据处理(数据中存
在错误或偏离期望值的数据)和不一致数据处理。
遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法
处理。
噪声数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处
理)、聚类、计算机人工检查和回归等方法去除噪声。
对于不一致数据则可进行手动更正。
2.数据集成
数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。这一过
程中需要着重解决3个问题:模式匹配、数据冗余、数据值冲突检测与处理。
(1)模式匹配
由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的
名称。对来自多个实体的不同数据进行匹配是处理数据集成的首要问题。
(2)数据冗余
数据冗余可能来源于数据属性命名的不一致,可以利用皮尔逊积矩来衡量数值属
性,对于离散数据可以利用卡方检验来检测两个属性之间的关联。
(3)数据值冲突
数据值冲突问题主要表现为,来源不同的统一实体具有不同的数据值。数据变换
的主要过程有平滑、聚集、数据泛化、规范化及属性构造等。
3.数据违约
数据规约主要包括数据方聚集、维规约、数据压缩、数值规约和概念分层等。使
用数据规约技术可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原
数据的完整性。
在规约后的数据集上进行挖掘,依然能够得到与使用原数据集时近乎相同的分析
结果。《大数据预处理架构和方法》教程中会对大数据预处理技术进行详细介绍。
(三)大数据存储及管理技术
大数据存储及管理的主要目的是用存储器把采集到的数据存储起来,建立相应的
数据库,并进行管理和调用。
在大数据时代,从多渠道获得的原始数据常常缺乏一致性,数据结构混杂,并且
数据不断增长,这造成了单机系统的性能不断下降,即使不断提升硬件配置也难以跟
上数据增长的速度。这导致传统的处理和存储技术失去可行性。
大数据存储及管理技术重点研究复杂结构化、半结构化和非结构化大数据管理
• 224 •

