Page 238 - 大数据背景下网络安全问题研究

P. 238

大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data

（四）大数据处理
大数据的应用类型很多，主要的处理模式可以分为流处理模式和批处理模式两
种。批处理是先存储后处理，而流处理则是直接处理。
1.批处理模式
Google 公司在 2004 年提出的 Map Reduce 编程模型是最具代表性的批处理模式。

Map Reduce 模型首先将用户的原始数据源进行分块，然后分别交给不同的 Map 任务
去处理。Map 任务从输入中解析出 key/value 对集合，然后对这些集合执行用户自行
定义的 Map 函数以得到中间结果，并将该结果写入本地硬盘。

Reduce 任务从硬盘上读取数据之后，会根据 key 值进行排序，将具有相同 key 值
的数据组织在一起。最后，用户自定义的 Reduce 函数会作用于这些排好序的结果并
输出最终结果。
Map Reduce 的核心设计思想有两点。将问题分而治之，把待处理的数据分成多

个模块分别交给多个 Map 任务去并发处理。
把计算推导数据而不是把数据推导计算，从而有效地避免数据传输过程中产生的
大量通信开销。

2.流处理模式
流处理模式的基本理念是，数据的价值会随着时间的流逝而不断减少。因此，尽
可能快地对最新的数据做出分析并给出结果是所有流处理模式的主要目标。
需要采用流处理模式的大数据应用场景主要有网页点击数的实时统计，传感器网
络，金融中的高频交易等。

流处理模式将数据视为流，将源源不断的数据组成数据流。当新的数据到来时就
立刻处理并返回所需的结果。
数据的实时处理是一个很有挑战性的工作，数据流本身具有持续到达、速度快、

规模巨大等特点，因此通常不会对所有的数据进行永久化存储，同时由于数据环境处
在不断地变化之中，系统很难准确掌握整个数据的全貌。
由于响应时间的要求，流处理的过程基本在内存中完成，其处理方式更多地依赖
于在内存中设计巧妙的概要数据结构。内存容量是限制流处理模式的一个主要瓶颈。

《Hadoop Map Reduce概述》教程和《Spark简介》《Spark Streaming简介》教程
会分别对批处理模式和流处理模式进行详细介绍。
（五）大数据分析及挖掘技术
大数据处理的核心就是对大数据进行分析，只有通过分析才能获取很多智能的、

深入的、有价值的信息。
越来越多的应用涉及大数据，这些大数据的属性，包括数量、速度、多样性等都

• 226 •

233 234 235 236 237 238 239 240 241 242 243