Page 237 - 大数据背景下网络安全问题研究
P. 237
» 第八章 大数据时代通信网络安全研究
与处理技术,解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键
问题。
具体来讲需要解决以下几个问题:海量文件的存储与管理,海量小文件的存储、
索引和管理,海量大文件的分块与存储,系统可扩展性与可靠性。
面对海量的Web数据,为了满足大数据的存储和管理,Google自行研发了一系列
大数据技术和工具用于内部各种大数据应用,并将这些技术以论文的形式逐步公开,
从而使得以GFS、Map Reduce、Big Table为代表的一系列大数据处理技术被广泛了解
并得到应用,同时还催生出以 Hadoop 为代表的一系列大数据开源工具。
从功能上划分,这些工具可以分为分布式文件系统、NOSQL数据库系统和数据
仓库系统。这3类系统分别用来存储和管理非结构化、半结构化和结构化数据,如图
8-1所示。
图 8-1 典型大数据存储与管理系统及其分类
《Hadoop HDFS分布式文件系统》教程和《NOSQL非关系型数据库》教程分别
对分布式文件系统和NOSQL数据库系统进行详细介绍。
• 225 •

