Page 123 - 大数据时代智慧档案馆建设与创新管理模式
P. 123

第五章  基于区块链的档案管理研究


             必须借助于大数据应用系统。现有的大数据应用系统以分布式的方式存储数

             据,完美解决了数据分布问题、分布式系统中的容错问题,处理大数据时的冗
             余问题。成熟的大数据应用系统有基于存储的分布式文件系统GFS(Google File
             System)、Hadoop,以及李浩源等研发的基于分布式内存的文件系统Tachyon。

             分布式文件系统利用RCFiIe、Parquet等存储格式优化存储,节约了存储空间。以
             Hadoop平台为例,首先,数字档案馆通过ETL(数据仓库技术)方法对分散、异

             构的档案信息资源进行抽取、清洗,然后利用MapReduce编程模型对清洗后的数
             据进行深层次挖掘分析,最后利用Hadoop或NoSQL等大数据集成技术将处理后
             的数据存在到各自的数据仓库。大数据应用系统可存储、分析、挖掘不同类型的

             档案数据,分析前需要在数据的海洋中甄别出那些真正有价值并且真实的东西。
             众所周知,做数据挖掘和数据分析时,大量时间成本或精力成本花费在了有效数
             据的收集和数据清洗上。区块链技术为用户解决了大数据分析中的数据质量、数

             据存储和管理的问题,减少了收集和清洗数据的时间,降低了数据分析和挖掘
             成本。
                 2.区块链技术可保证数据安全、真实、准确

                 运用大数据系统可管理海量档案数据,用户只需简单的操作就可以对海量的
             档案数据进行查询和分析,建立数据与数据之间的关系模式,提升了整个档案数

             据的价值。运用大数据技术可以对数据档案馆的资源数据进行深度挖掘,找出资
             源数据的内在联系,可提高数字档案资源的利用率,提升数字档案资源价值。大
             数据技术进行挖掘时对服务器等硬件要求很高,容易造成MDB(Message Driven

             Bean)损坏,在吞吐量非常大的环境下还很容易发生数据丢失。针对数据挖掘中
             可能出现的数据安全问题,可采用区块链技术解决。区块链的数据大多都采取了

             云存储技术,这种技术在不需要经过数据中心的情况下自动处理结构数据和非结
             构数据,解决了MDB损坏的问题。同时现有的区块链协议可以使用全新的共识
             模型在几秒内完成极为庞大的信息之间的互相传送与交换,并且利用可伸缩的数

             据模型来降低运行负荷。同时区块链自身的特性决定了一个节点数据的丢失并不
             会影响整个数据的完整性,因为还有其他节点可用来恢复。这种技术解决了吞吐

             量非常大的环境下的数据丢失问题,保障了数据传输安全,保证了档案馆馆藏资
             源数据挖掘的准确性,解决了档案最为关键的安全问题。


                                                                                    111
   118   119   120   121   122   123   124   125   126   127   128