Page 41 - 大数据时代计算机信息处理技术研究
P. 41

第二章  大数据时代计算机信息处理存在的问题及优化



              入。对于任意时间戳来说,都要依托 CRF 变化才能发生改变,反之会致使 CRF

              的成本提升。在应用期间,可采用以下技术使 CRF 值发生改变。一种是在数据
              块已经被访问或者提交的情况下,可对其对应的 CRF 值与时间戳给予调整,在
              初始 CRF 基础上,获得更改后的 CRF 值;另一种是在首次替换操作后,需要对

              全部数据块 CRF 值予以调节。究其原因,对于任意数据块来说,都要以更新后
              的 CRF 为参考排列顺序,经过比较计算出数据块内最小值。在理论层面上看,
              LRFU 可在 Frequency-friendly 模式中取得理想应用效果。在 LRFU 中的全部数据
              块访问顺序均超过预定界限,如若访问频率相同,便会对数据块随机调整。当处

              于 Loop 模式时,LRFU 中的部分数据块在内存中未充分替换,只是具有一定的
              替换概率。可见,只有在后一种模式下,LRFU 性能才可达到最佳。在计算机应
              用中,应结合用户实际需求,使 LRFU 参数得到科学设定,才可使实际效果最大
              限度地接近于预期。

                  2.LIRS 调度策略
                  在 Alluxio 模式内,此种调度策略的应用要点如下。首先是明确数据块
              处理程序,在某数据块提交后,如若 LIR 仍有充足空间,可将其设定为 LIR_
              RESIDENT 状态,再将其存储到 T1 栈顶,也可将数据块设定为 HIR_RESIDENT

              状态,再存储到 T2 栈顶;其次是针对存储层内的数据块展开处理。该层内数据
              块处于不断移动状态,且状态会发生改变,变成 HIR_MOVED 形态,并自动存
              储到 T2 栈顶。此时需要对其加强重视,如若某个数据块没有完全存储到内存中,
              但被访问,则 Access 行为便会被开启,当数据块转移到存储层后,并受到访问,

              即便没有 HIR_MOVED 状态,Move 行为也会被启动,此时数据块状态便会再次
              发生改变,变成 HIR_RESIDENT,在 Access 行为启动后,块才会变为初始状态。
              可见,即便数据块没有被访问,仍会占据一定的存储空间,需要在首次移动的数
              据块新增中间状态,使经过访问和替换的数据块均能得到妥善处理。

                  3.RDF 数据索引与存储策略
                  (1)查询空间
                  一般情况下,RDF 三元数据库在存储期间会采用索引技术,使数据查询时
              三元组配成功率得以提升。在数据库设计的索引方案中,均参考标准数据库实现

              设计,将重心放在 RDF 数据间的关联性、结构特性上。以 3 个应用最频繁的三
              元组查询为依据,形成更为高效的索引机制,使数据查询与处理速度得到进一步


                                                                                   ·33·
   36   37   38   39   40   41   42   43   44   45   46