Page 28 - 大数据时代计算机信息处理技术研究
P. 28
大数据时代计算机信息处理技术研究
Research on Computer Information Processing Technology in the Era of Big Data
度更高,数据循环更快。行列混合式存储是目前最流行的数据存储技术。这种技
术吸收了行存储和列存储的优点,既可以快速加载数据、快速查询数据,也可以
提高磁盘空间利用率。提高数据存储总量、提高数据处理效率、优化数据分布布
局,是数据存储技术的未来发展方向。
(三)数据高效索引
目前,应用最广泛的主流索引技术是诞生于谷歌公司的 BUG TABLE 技术。
聚簇索引、互补式聚簇索引,是当前索引技术的研究热点。聚簇索引的原理是根
据索引顺序将全部数据结构存入数据库,互补式聚簇索引的原理是根据索引创建
和索引表互补的索引列,使用结果估算法,对数据进行最优查询。
(四)基于内容信息的数据挖掘
数据挖掘的核心技术是网络搜索和实体关联。排序学习算法是当前互联网信
息搜索领域的热点,其作用是从海量社会媒体信息中根据数据特点筛选信息,并
对信息进行逐对和逐列搜索。
(五)遗传算法和神经网络
遗传算法和神经网络是大数据技术和生物技术的融合产物。大数据技术模仿
生物技术的进化规律,进行数据随机搜索。遗传办法是基于寻优原则,使用概率
化处理数据,保证数据可以自动调整搜索方式。机器学习、信号处理、物流选址
等,都是遗传办法的具体应用。神经网络来源于生物领域的神经网络结构。神经
网络算法借鉴动物运动神经,建立了和动物运动神经类似的网络行为,可以进行
分布式并行信息处理。
(六)分类分析和聚类分析
分类分析的作用是以归类数据点为前提重新确定新的数据点。明确假设、客
观结构,是分类分析的前提条件。预测是分类分析的主要作用。聚类分析是在无
限制或未知限制的情况下,对数据进行分组和分析。分类分析和聚类分析都是常
用的数据挖掘方法。
(七)关联规则学习和机器学习
关联规则学习是以寻找数据关联规则为目的的数据处理。机器学习的研究核
心是计算机模拟人类,使用计算机模仿人类的学习行为,使机器自主学习并更新
知识体系。机器学习是人工智能的基础技术,也是人工智能的核心技术。数据发
掘是关联规则学习和机器学习的主要目的。
·20·

