Page 208 - 新时期档案管理模式理论与发展创新
P. 208
新时期档案管理模式理论与发展创新
Theory and Development Innovation of Archives Management Model in the New Era
生出各种类型的数据,要采集到这些数据就需要解决针对大数据源的感知、识别、
适配、传输、接入等技术,主要是要提供物联网资源和非结构化、半结构化和结
构化数据的数据库等基础支撑环境和大数据服务平台所需的虚拟服务器,最重要
的是要攻克分布式虚拟存储技术难题,包括大数据操作的可视化接口技术,大数
据的压缩技术、网络传输与大数据隐私保护技术等。
(二)大数据存储
数据的长期保存和实时迁移一直是大数据时代的研究重点。从 20 世纪末以
来直到现在,数据存储技术是在随着不断变化的数据量大小而不断优化发展的。
近几年,尤其是大数据时代的到来,网络技术的不断发展,数据存储环境虚拟化
从研究走向现实。数据存储虚拟化就是将原有的服务器进行软件虚拟化,将其划
分为若干个独立的服务空间,达到可以在一台服务器上提供多种存储服务的目的,
是非结构化数据和半结构化数据的最佳存储选择。数据存储中心在选择存储方式
时,要根据服务器类型数量和要处理的数据对象两个重要因素,选择适合的开放
系统存储方式,如直连式存储(Direct-Attached Storage,简称 DAS),生活中最
常见的存储方式,尤其是广泛应用于中小企业中;网络接入存储(Network-Attached
Storage,简称 NAS),文件级的存储方法,带有云存储功能,方便用户共享文档、
图片、视频等资源;存储区域网络(Storage Area Network,简称 SAN),技术
相当成熟,存储功能相当强大以及比 SAN 更经济地存储局域网络(IPSAN)。
这些存储方式既大幅度提高了存储效率又大量节约了存储成本,虚拟化存储必然
会成为大数据存储的主流方向。
(三)大数据挖掘
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数
据中,提取隐含在其中的、人们事先不知道的、又是潜在有用的信息和知识的过
程。大数据时代,数据处理总量通常都是超过百 TB,甚至 PB 级别的异构数据,
常规的数据处理工具和技术早已难以胜任。分布式挖掘技术和云计算技术成为大
数据时代数据挖掘的主要技术。Google 公司一直是分布式挖掘技术行业的先导,
公司研发的 Map Reduce 分布式挖掘工具集合了效率高、安全可靠、可扩展和能
容错等一系列的优点,适用于数据量大类型复杂的各种大数据挖掘,英特尔公司
开发的 Hadoop 分布式挖掘工具也具有类似强大的功能,再加上云计算超强的运
算能力,根据需求访问计算机和存储系统完成数据挖掘任务不再是难题。
196

