Page 45 - 大数据云计算技术与通信安全研究

P. 45

第二章大数据技术在中国医疗保险基金审计中的应用

由于各级医保部门以及各医疗机构存储数据的格式尚未实现完全规范与统
一，审计人员采集到的原始数据难以直接进行分析利用，需要通过数据整合、数
据清洗和数据转换等程序对原始数据进行处理，使其能够保证数据分析的顺利进
行以及分析结果的真实准确。对于基础性数据处理工作无法解决的数据质量问题

可以通过数据查询、挖掘技术对医疗保险基金数据进行分析处理，以获得审计需
要的数据效果。例如审计署湖北特派办在对医疗保险基金进行审计时，审计地区
的上千家医疗机构对床位费的表述未能实现统一，床位费数据在进行基础性处理
后仍然难以利用。在这种情况下，审计人员利用 R 语言文本挖掘工具，通过医

学词汇集合对数据文本进行分词操作，在此基础上利用聚类分析技术，锁定异常
医院与治疗项目并进行延伸审计。
2. 数据存储与管理
在上一步骤中，医疗保险基金数据在被采集后经过了一系列清理程序，由于

医保数据体量庞大且种类繁多，需要根据其类型、体量等属性，选择适用的数据
库工具进行存储与管理。不同类型的数据库，展示数据分析结果的形式也有所不
从，从而导致审计人员对审计结果的理解有所区别。
（1）关系型数据库

组织数据的方式为关系模型，其中数据均以行和列的形式储存，让用户可以
简易地使用和理解数据。数据库中的行与列的集合被称为表，一组表组成了数据
库。关系型数据库中的数据具有 ACID 特性，即 Atomic（原子性）、Consistency
（一致性）、Isolation（隔离性）和 Durability（持久性）。在关系型数据库中，

审计人员通过查询语句，在特定区域搜索所需要的数据信息。在医保领域，关系
型数据库主要为医疗 HIS 系统数据库，审计人员通过 SQL 语言来实现对数据的
关联对比分析。
（2）非关系型数据库（No SQL）

不保证关系数据的 ACID 特性，数据之间不存在关联性，因此该类型数据库
较之于关系型数据库具有更强的延展性。由于数据之间的无关性，No SQL 数据
库的结构都较为简单，面对体量庞大的大数据，其仍具有非常高的读写性能，相
较于一般使用 Query Cache 的数据库，No SQL 的 Cache 是记录级的，是一种细

粒度的 Cache，这为 NoSQl 数据库带来了更高的性能。此外，No SQL 在存储格
式方面拥有较高的自由度，可以免于提前设置存储字段。目前在医保审计领域，

40 41 42 43 44 45 46 47 48 49 50