Page 117 - 计算机应用软件开发技术研究
P. 117
第四章 大数据与机器学习
第四章 大数据与机器学习
第一节 大数据与机器学习
一、大数据的产生及特征
(一)大数据的产生
大数据的产生得益于信息技术的快速发展,尤其是互联网与移动互联网技
术的广泛应用。互联网设备与传感器的指数增长是产生与收集海量大数据的主要
原因。大数据的来源很多,包括计算机商业交易平台、移动电话、社交媒体、网
站信息、搜索数据、传感器与卫星图像、交通数据等。在金融市场、各种线下
线上商品交易平台,扫描器与电子支付系统记录了逐笔交易数据。GPS 和北斗
传感器记录了地球上各种重要的气候环境数据与物理数据,如中国主要大城市
PM2.5 的观测值、全球大城市的夜间灯光亮度数据、望远镜与射电望远镜全天候
观测太空、实时记录了各种天文物理数据流。各类企业和政府网站也提供了有用
的信息,特别是互联网巨头,即所谓的大型科技(Big Tech)公司,如中国的百
度、阿里巴巴、腾讯、京东,美国的谷歌、亚马逊、脸书、苹果等。在数字经济
时代,海量经济大数据的产生得益于基于计算机的互联网与移动互联网的各种经
济活动与商业交易,而且大数据作为一种新的生产要素,反过来进一步推动经济
发展。无人驾驶的发展就是大数据应用的一个典型案例,截至 2021 年底,中国
互联网与移动互联网用户人数超过 10 亿人,远远超过美国与欧盟网民人数的总
和。现在已出现了一个新的 GDP 概念,即数据生成总值(gross data product),
用于测度每个国家或地区的数据资源总量及其利用程度。
(二)大数据的特征
大数据具有以下四大特征,即所谓的“4V”特征。
1.海量性
从各种渠道收集的信息,包括商业交易数据、社交媒体数据、传感器数据以
及机器对机器数据等。在过去,如何存储如此大规模的数据是一个技术难题,但
·105·

