Page 129 - 大数据背景下计算机信息安全及防护

P. 129

第四章大数据安全防护技术

数据掩码方法属于静态数据脱敏技术，通过使用掩盖字符或通配符等符号，
替换敏感信息来保护数据的隐私。例如，使用星号替代身份证号码中的部分数字，
如“**19900101”。这种方法虽然简单易实现，允许对编码数据执行测试或分析
任务，从而限制私人信息暴露给第三方系统或个人，但它们可能会导致信息泄露，

因为它们保留了太多输入数据的格式，从而增加了攻击者猜测私人信息的机会。
数据屏蔽指的是使用特殊的技术对数据进行屏蔽，属于动态脱敏，以确保敏感信
息无法被直接识别。与数据掩码技术相比，特别是当训练样本数量较大时，该方
法具有较低的风险。

Pham 等提出了一种用于隐私敏感学习的数据屏蔽技术。其主要思想是迭代
地寻找被屏蔽数据，使得分类器上关于被屏蔽数据的似然梯度为零，在保证隐私
保护的情况下屏蔽私有数据，同时确保在屏蔽数据上训练的分类器与在原始数据
上训练的分类器相似，以保持可用性。而这种方法占用较多内存，迭代的次数与

效率不成正比。针对数据屏蔽会占用大量资源且某些替代方法不能从根本上解决
数据丢失的问题，Bi 等提出基于模糊集的数据脱敏算法，使用模糊集对数据进
行脱敏以后，数据只有很小的概率会被修复。与基于数据变形思想的数据脱敏方
法相比，基于模糊集的脱敏方法具有较大优势。另外，由于模糊集具有很多种不

同的隶属度函数，可以实现对脱敏算法的智能选择。
传统的数据脱敏方法可能会破坏相关信息，进而造成数据泄露的问题，
Xiang 等提出一种基于改进的 Stackelberg 生成对抗网络。该网络与普通的生成对
抗网络相比，具备更多的发生器与训练器，同时引入一个具有 N 个鉴别器的特

殊领导者。在网络开始训练时，鉴别器的输出结果接近于 0，发生器的输出结果
接近于 1；在网络训练过程中，每个鉴别器都具备相同的权重，各自进行训练并
做出判断，通过领导者汇集所有结果，并计算结果的平均值。随着每个鉴别器不
断自我训练，模型效果会越来越理想，直至能够最大程度地区别实际数据与生成

数据，即此时的鉴别器与生成器处于平衡状态。
（三）数据分类分级
数据分类是从数据管理的角度出发，通过聚集具有相同属性或特征的信息，
形成不同的类别，便于使用者操作和鉴别数据信息。数据分级是从数据安全的角

度出发，按照信息的敏感程度或影响程度对数据信息进行分级。两者都可以更好
地管理和保护数据资源。

·119·

124 125 126 127 128 129 130 131 132 133 134