Page 65 - 大数据时代计算机信息处理技术研究
P. 65
第二章 大数据时代计算机信息处理存在的问题及优化
储、处理与分析,从中发现价值,通过网络信息资源共享,以服务的方式廉价地
提供给用户,从整体上看,大数据与云计算是相辅相成,云计算的分布式管理系
统和数据存储,提供了海量数据的存储和管理能力,大数据分析技术,主要来自
云计算支持,可以说大数据根植于云计算。反之,没有云计算技术支撑,大数据
分析无从谈起,反之,没有大数据,云计算技术也不能发挥应用价值,两者之间
已经相互融合,相互促进,大数据网络信息检索技术,要根据聚类,得到数据之
间的关系,对数据进行分类和预测。
(二)日志挖掘扩展
大数据非结构化与半结构化数据,被广泛应用于各个领域,是数量和类型非
常庞大的数据集,通过数据挖掘,可以精准判断用户的行为信息,分析更多的数
据,使用户对某一领域有更好的洞察力。大数据支持下搜索日志的查询扩展方法,
可解决用户查询和文档用词不匹配的问题,系统可在扩展数据源中选取一些与用
户查询词相关的词根据扩展词的来源,基于文档集的全局分析或局部分析、语义
资料,组成更有效的查询序列,提高搜索引擎的检索性能,高效匹配被搜索文档
集中的文档关键词。
搜索日志中存在大量与用户相关数据,在大数据的相关关系影响下,通过搜
索日志的查询扩展方法和数据处理技术,可以让了解正在发生的事情和行为,提
高查询质量。但搜索日志数据存在时效性问题,日志中关键词受到积累时间的影
响,使得查询扩展不无法包含新概念。针对日志数据时效性问题,机器人挖掘技
术对于模糊信息实现高效处理,提高数据处理的效率,可从用户日志信息查询相
关的扩展词,挖掘出查询词之间的关联关系,从历史相关查询中联系上下文,基
于用户的反馈信息,生成新的用户查询。日志是用多次“反馈”的积累,可统计、
挖掘分析出用户查询词之间的关联关系。
大数据海量信息资源,需要云计算技术、人工智能等设备配合进行挖掘,对
用户的信息、行为进行分析、检索,根据数据挖掘的方法,构建网络数据的知识库,
定义计算规则,依此计算网页与用户的相关度作为推荐的准则。系统通过对用户
浏览器缓冲区数据的挖掘,可以预测用户选择程度较高的词条,挖掘其中蕴含的
关联规则,基于统计分析的思想,以记录用户日志为语料库存,系统通过对数据
海量类型知识的深层挖掘,可以以自动推理和分析的方式来从数据知识库中挖掘
和搜索有关知识,结合给定条件综合分析,进一步提高网络系统查准率和查全率。
·57·

