Page 79 - 现代档案信息化的管理与建设
P. 79

第二章 档案管理现代化及信息化建设



              “新”,是新资源、新工具和新应用的综合体。
                  1. 大数据关键技术的应用
                  从数据在信息系统中的生命周期来看,大数据从数据源经过分析挖掘到最终
              获得价值一般需要经过 5 个主要环节,包括数据准备、数据存储与管理、计算处

              理、数据分析和知识展现。对于数据准备环节和知识展现环节来说,大数据所带
              来的变化只体现在量上,而对于数据分析、计算和存储三个环节则有较大影响,
              需要重构技术架构和算法,而这也将成为当前和未来一段时间内大数据技术创新
              的焦点。

                  ①数据准备环节。大数据数量庞大、格式多样,质量也良莠不齐,因此在数
              据准备环节必须对其进行格式的规范化处理,为后续的存储与管理奠定基础。
                  此外,要在尽可能保留原有语义的情况下去粗取精,消除数据噪声。
                  ②数据存储与管理环节。当前全球数据量以 50% 的速度不断增长,数据的

              海量化和快增长特征是大数据对存储技术提出的首要挑战。谷歌文件系统(GFS)
              和 Hadoop 分布式文件系统 HDFS(Hadoop Distributed File System)采用分布式
              架构,弥补了传统存储系统的不足,同时能够达到较高的并发访问能力。
                  ③计算处理环节。大数据的计算是数据密集型计算,对计算单元和存储单元

              间的数据吞吐率要求极高,对性价比和扩展性的要求也非常高,分布式并行计算
              技术弥补了传统并行计算系统在速度、可扩展性和成本上的不足,适应大数据计
              算分析的新需求。
                  ④数据分析环节。数据分析环节是大数据价值挖掘的关键。目前大数据分析

              主要有两条技术路线,其一是凭借先验知识人工建立数学模型分析数据;其二则
              是通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工,获得
              从数据中提取知识的能力。人工智能和机器学习能够更好地适应当前的大数据环
              境,具有良好的前景。

                  ⑤知识展现环节。在大数据服务于决策支持场景下,以直观的方式将分析结
              果呈现给用户,是大数据分析的重要环节。如何让分析结果易于理解是主要挑战。
              但是在嵌入多业务的闭环大数据应用中,一般是由机器根据算法直接应用分析结
              果而无须人工干预,这种场景下知识展现环节则不是必需的。

                  2. 大数据对档案信息化的保障
                  ①档案数据价值挖掘保障。在档案数字资源中,不同的档案数据中蕴含的价


                                                                                      67
   74   75   76   77   78   79   80   81   82   83   84