Page 190 - 大数据技术及安全研究
P. 190
大数据技术及安全研究
Big Data Technology and Security Research
的信息进行格式化,清除计算机上的全部信息,避免因计算机被二次卖出,导致
计算机上的信息泄漏。
四、大数据助力信息安全
(一)数据源采集
信息安全领域的数据源根据数据类型的不同包括结构化数据、非结构化数据
和半结构化数据,主要通过智能网络爬虫技术、数据库读取、数据库导入等方式
采集来源于网络信息、应用系统的数据库信息以及平面文件信息等。
(二)大数据预处理
原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖
掘算法的执行效率,甚至可能导致挖掘结果的偏差。因此,在数据挖掘算法执行
之前,必须对收集到的原始数据进行预处理,从而改进数据的质量,提高数据挖
掘过程的效率、精度和性能。大数据预处理利用数据切片、数据分类、数据聚合、
数据索引标记等技术对原始数据进行层级化的聚合、重组、清洗、提取、转换、
管理、切分等预处理操作,统一标准接口,统一数据标准,并通过分布式存储管
理技术,在满足一致性要求的基础上,实现安全、可靠、快速、有效地对多类型、
多格式、多特性数据的统一存储管理。
(三)大数据分布式计算
大数据分布式计算通过两个或多个计算机互相共享信息,将需要进行大量计
算的数据分割成小块,由多台计算机分别计算,再对运算结果进行统一合并。采
用分布式任务调度机制动态灵活地将计算资源进行分配和调度,从而达到资源利
用最大化,计算节点不会出现闲置和过载的情况并支持资源配额管理。采用分布
式实时计算框架和分布式离线计算框架相结合的分布式计算框架和模块化设计,
构建一个支持多种分布式计算模型的统一资源动态调度、管理和计算的大数据分
布式计算平台,有效支撑大数据挖掘分析。
(四)大数据挖掘分析
通过上述数据采集、数据预处理、数据分布式计算等业务过程,大数据已纳
入分布式数据存储管理中,这些数据信息已可以用于传统的查询、统计和分析,
得到大量对业务有用的信息。然而,隐藏或淹没在这些大数据之中的更重要的信
息,如数据整体特征描述、发展趋势预测、关联性分析、精细化分类、模式识别
·178·

