Page 64 - 大数据时代计算机信息处理技术研究
P. 64

大数据时代计算机信息处理技术研究
             Research on Computer Information Processing Technology in the Era of Big Data


             储,采用先进的数据索引方法,通过附加的聚合方法对数据结构进行更改和排序,
             用户还可以通过输入关键字得到所需的数据。

                 六、基于云计算的大数据网络信息检索技术及扩展


                 (一)全集数据扩展
                 查询扩展技术作为一种查询优化技术,主要包括基于全局聚类、局部聚类、
             用户相关反馈的查询扩展技术,信息检索系统领域已有很长的研究历史,几乎所
             有信息检索系统,都是基于关键字、词符号相匹配的方式进行检索,被检索的文
             档只有击中查询词,才能被检索出来,但人类的自然语言、词汇,在不同情况同

             一概念下,会表示不同或相同的意思查询扩展技术可以有效改善和提高检索的查
             准率、查全率,解决信息检索中词不匹配现象。
                 传统网络信息检索技术由于数据存储和处理能力的限制,通常采用抽样的方

             法,通过抽取一部分样本数据,对样本数据的分析来推断全集数据的总体特征。
             大数据技术可以完成海量数据的存储和处理,在云计算环境下分布式文件系统和
             分布式数据库,提供了近乎无限的数据存储能力,强大的海量数据并行处理能力。
             因此,有了云计算大数据技术的支持,网络信息检索可以直接针对全集数据,在

             短时间内迅速得出分析结构,系统根据相关反馈的方法对查询进行扩展的过程中
             不是抽样数据,而是全样数据,根据用户所提供的查询词对文档集进行检测,系
             统在高效快速将初检结果集合返回给用户时,可筛选、过滤信息检索过程中出现
             的词不匹配等问题。基于大数据网络信息查询扩展技术,在分析大数据和进行关

             键技术检索时,需要审视它的可计算性,大数据内在关联密切,样本量巨大而复
             杂,价值密度分布不均衡,要避免无效计算。
                 传统抽样分析追求分析方法的精确性,结果被应用到全集数据以后,误差会
             被放大,微小误差的抽样分析,可能会在全级数据中形成一个很大的误差。传统

             数据分析和信息检索,更加注重提高算法的精确性。相反,大数据时代具有“秒
             级响应”的特征。最早的查询扩展优化方法就是,对网络信息数据进行全局分析
             的查询扩展,用户提交关键词后,系统对潜在语义索引和基于相似性词,以及词
             与词之间相似关系的数据结构进行相关分析,对文档集中的所有词语进行聚类,

             根据数据制定决策。云计算、大数据已集成一个信息存储仓库,大数据决策可以
             面向非结构化、类型繁多的海量数据进行决策分析,大数据侧重于对海量数据的


             ·56·
   59   60   61   62   63   64   65   66   67   68   69