Page 42 - 大数据时代计算机信息处理技术研究
P. 42
大数据时代计算机信息处理技术研究
Research on Computer Information Processing Technology in the Era of Big Data
提升,确保大多数 SPARQL 查询都能够快速响应,并取得理想成果。
(2)索引策略
RDF 三元组成分以字符串为基础,表现格式完整,字符串一般较长。为了
尽量缩小数据存储所用空间,可在 Rainbow 系统内将三元组成分展示出来,以哈
希表形式进行索引,完成维护管理工作,该项技术与标准数据库基本相同。在编
码压缩后,与以往相比存储空间会明显压缩,还会空余许多磁盘与内存空间,以
免中间结果使数据存储量提升。在查询期间,中间结果受网络传输的影响较大,
结果集明显缩小,还可减少传输数据量,促进整体查询性能提升。
(3)数据存储管理
当前 Hadoop 计算机处理技术应用范围逐渐扩大,现已成为大数据存储管理
的关键指标,在应用过程中许多分布式 RDF 数据库都将 HBase 系统作为底层大
规模 RDF 数据存储平台,使该系统的容错性、可拓展性充分展现出来,在分布
式层次化基础上,创建索引存储机制,使 RDF 数据得到良好存储。在数据访问中,
需要综合分析实验环境、访问模式以及大数据应用性能,采用 Loop 测试对最佳
命中率进行检验,预防存储数据被病毒入侵,使数据库安全得到保障。
(三)大数据环境下计算机挖掘与处理技术的实际应用
1. 基本情况
在某档案馆运行中,因社会群体需求逐渐增加,档案管理面对的受众群体更
加多元化,传统档案管理模式的弊端逐渐显现,难以满足日益增长的社会需求,
通过计算机挖掘与处理技术的应用,促进档案数据库建设,使海量数据能够妥善
存储,切实解决馆内资源存储需求高、难度大等问题。
2. 技术应用
(1)数据收集
首先借助计算机挖掘技术,创建与档案信息相匹配的数据模型,将其与模型
样本对比,寻找二者差异,便于数据准确分类处理。在测试样本模型基础上,面
向档案信息全面挖掘,确保库内数据准确度与全面性,也可对现有数据模型深度
细化,将其与测试样本对比,在每个模型测试通过后,便可将其采集到档案管理
内,由此提高管理效率。在数据分类基础上创建的档案数据模型,可根据档案内
容进行差异对比和分类,寻找相同事件中不同档案的记载,将其汇总起来,使档
案信息更加充实完整,此举有助于档案信息的分类、整理与筛选,还可对档案内
·34·

