Page 109 - 起重机械设备安全技术检验及评价
P. 109

第三章  起重机械安全管理


               类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),
               即所谓的四 V 特性。这些特性使得大数据区别于传统的数据概念。大数据的概
               念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数

               据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、
               处理等专业化处理,最终获得有价值信息的能力。
                   (1)数据量大
                   大数据聚合在一起的数据量是非常大的,根据 IDC 的定义至少要有超过

               100TB 的可供分析的数据,数据量大是大数据的基本属性。导致数据规模激增的
               原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,
               数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方
               法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,

               而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的
               点击、浏览都可以快速的提供大量数据;其次是随着各种传感器数据获取能力的
               大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据
               量激增。早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,

               数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意
               义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着
               应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。以当前
               最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,

               单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设
               备以及 Kinect 等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描
               述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在
               人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受限于

               获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物
               的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,
               通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据
               管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了

               当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某
               些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,
               甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采



                                                                                      101
   104   105   106   107   108   109   110   111   112   113   114