Page 109 - 起重机械设备安全技术检验及评价
P. 109
第三章 起重机械安全管理
类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),
即所谓的四 V 特性。这些特性使得大数据区别于传统的数据概念。大数据的概
念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数
据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、
处理等专业化处理,最终获得有价值信息的能力。
(1)数据量大
大数据聚合在一起的数据量是非常大的,根据 IDC 的定义至少要有超过
100TB 的可供分析的数据,数据量大是大数据的基本属性。导致数据规模激增的
原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,
数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方
法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,
而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的
点击、浏览都可以快速的提供大量数据;其次是随着各种传感器数据获取能力的
大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据
量激增。早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,
数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意
义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着
应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。以当前
最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,
单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设
备以及 Kinect 等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描
述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在
人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受限于
获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物
的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,
通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据
管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了
当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某
些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,
甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采
101

