Page 207 - 新时期档案管理模式理论与发展创新
P. 207
第七章 基于大数据档案管理模式研究
第七章 基于大数据档案管理模式研究
第一节 大数据技术
一、大数据定义
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无
法通过目前主流软件工作,在合理时间内达到撷取、管理、处理、并整理成为帮
助企业经营决策更积极目的的资讯。
二、大数据类型
大数据时代数据类型繁多,综合分析来看,主要集中体现在出现三种差异明
显的数据类型,即结构化数据、半结构化数据和非结构化数据。结构化数据是指
存储在数据库里,可以用二维表结构来逻辑表达实现的数据;非结构化数据就是
不方便用数据库二维逻辑表来表达实现的数据,包括所有格式的办公文档、文本、
图片、XML、各类报表、图像、音频、视频信息等。半结构化数据,就是介于
结构化数据和非结构化数据之间的数据,HTML 文档就属于典型的半结构化数据,
它一般是自描述的,数据的结构和内容混在一起没有明显的区分。和过去产生的
数据类型相比,大数据时代出现越来越多的非结构化数据、半结构化数据,存储
和处理也变得越来越困难。
三、大数据关键技术
大数据关键技术是指从各种类型的数据中快速获得有价值信息的技术,大数
据时代涌现的新技术可以处理传统技术手段不能解决的问题,根据大数据生命周
期演变进程,大数据关键技术可以划分为大数据采集、大数据存储、大数据挖掘、
大数据分析四个重要阶段。
(一)大数据采集
网络技术的快速发展,使得传感器、RFID 射频、移动设备及社交网络等产
195

