Page 208 - 档案数字化管理模式与理论研究
P. 208

Research on the Mode and Theory of Digital Archive Management
                  档案数字化管理模式与理论研究


                 (二)面临的挑战及思考
                 1. 档案数字资源可用性较低,应区分“存量”和“增量”做好档案数据
             化工作
                 尽管在各级各类档案管理标准规范下,档案数字资源在数据格式、数据来源、

             数据库类型、数据真实完整性等方面较为统一,数据质量较好,但绝大部分管理
             力度仍处于案卷级、文件级粒度,未下沉到档案内容或特征层面的属性描述,无
             论是文本还是图片、音视频都缺乏结构化的标记,且部分档案出于行业壁垒或国
             家安全与个人隐私的顾虑,无法共享共用,这些都给档案数据治理和知识获取提

             出了巨大的挑战。为应对这些问题,可以从“存量”和“增量”两方面进行考虑:
             对于“增量”方面,主要应依托电子文件管理系统进行前端控制,在文件形成阶
             段就将档案智能化管理可能需要的结构化标记信息,以元数据、图像特征、音视
             频流特征等形式提取和保存起来。

                 2. 档案知识库的构建及应用尚处于初级阶段,应探索具有档案管理特色
             的构建方式
                 从上述发展趋势看,融入行业沉淀知识是提升档案智能化管理效能的重要手
             段,知识库则是实现知识资源积累的具体形式。然而,当前流行的以知识图谱为

             核心的知识库构建技术并不完全适用于档案知识库的构建,具体原因有以下两个
             方面:一是数据类型多,目前知识图谱构建技术主要面向文本类数据,而档案信
             息资源中还包含大量照片类、录音录像类的多媒体档案数据,跨模态的档案知识
             获取、知识表示、知识关联还缺乏深入研究。二是部分知识开放性强,知识图谱

             的构建分为知识框架和知识实例两个层面,知识框架层面的知识单元易于获取,
             可以利用国家和档案行业标准对相关概念以及概念之间的关系进行描述和定义,
             但知识实例层面的知识开放性强,特别是档案内容中涉及人物、历史事件、经济
             社会等方方面面的知识,往往会超出档案管理领域预设的知识边界。因此,在档

             案知识库构建的落地实践过程中,切忌盲目贪大求全,必须以档案服务利用应用
             或场景为切入点,按照“结构化数据—半结构化数据—非结构化数据”的顺序选
             取数据源,遵循“语言知识—业务知识—决策知识”的步骤获取知识类型,由易
             到难,逐步求精。







             196
   203   204   205   206   207   208   209   210   211   212   213