Page 14 - 大数据时代计算机信息处理技术研究
P. 14
大数据时代计算机信息处理技术研究
Research on Computer Information Processing Technology in the Era of Big Data
Web2.0 网站建立的社交网络服务(Social Network Service,SNS),个人在自媒
体时代从信息的受众转向了信息的发布者,这些网络空间中的言论、评论、朋友
关系、页面访问等数据都成为大数据的组成部分;而物理世界的大数据同智慧城
市、物联网、移动互联网等终端的不断延伸同步发展,使得越来越多的数据被汇
集起来。一方面是网络世界的现实化,另一方面又伴随着现实世界的数字化,通
过“量化”这一核心步骤的整合,人们的虚拟世界和现实世界生活不断交织,也
不断催生着数据量的膨胀。
大数据这样庞大的数据量赋予其与传统的数据根本性的不同的特征。从特征
上来看,较为统一的认识是大数据有四个基本特征:数据规模大(Volume)、
数据种类多(Variety)、数据要求处理速度快(Velocity)、数据价值密度低
(Value),即所谓的四 V 特性。也有的用“4V+C”来概括大数据的特征,C 即
复杂性(Complicated)。这些特性都使得大数据区别于传统的数据概念。
此外,大数据的概念也与“海量数据”不同,相比后者只强调数据量上的庞
大的概念表述方式,大数据不仅描述量上的特征,还更进一步包括数据的其他特
征如数据形式的复杂性、数据时间上的迅速和及时性等。大数据的概念包容性更
强,涵盖更为复杂的数据特征。
有文章认为,大数据可以被定义为:“以新数据处理技术为手段,在海量、
结构复杂、内容多样的数据集中,以较快速度解析出规律性或根本性的判断、趋
势或预见。”这就揭示了大数据的动态处理过程,这种过程是一个信息价值的生
产和集成过程。大数据的一个必不可少的步骤就在于对数据的分析、处理等专业
化处理过程,而最终实现数据到信息的价值转变。“信息生态系统”这一概念已
经开始用来描述大数据时代信息生成的整个流程。
因此,大数据是特殊的对象,它绝不等同于传统的数据概念,也不是可以简
单地作为客观对象看待的物。简而言之,大数据本质上是数据的聚合,是来源极
广、容错性超高、非结构性突出、潜在价值巨大的海量数据。对大数据的分析、
运算而使之进一步信息化是大数据必不可少的配套技术和步骤。有学者认为:“大
数据是一种方法研究,数据本身不作为研究目标,而是作为方法研究和发现新知
识的工具。大数据研究是一种交叉学科研究,它与数据挖掘、统计分析、搜索等
人工智能方法密切相关。”这种观点很好地揭示了大数据的动态研究体系。大数
据绝不止步于数据本身,而更多地在于分析后的信息价值和应用中的使用方式,
·6·

