Page 129 - 大数据背景下计算机信息安全及防护
P. 129
第四章 大数据安全防护技术
数据掩码方法属于静态数据脱敏技术,通过使用掩盖字符或通配符等符号,
替换敏感信息来保护数据的隐私。例如,使用星号替代身份证号码中的部分数字,
如“**19900101”。这种方法虽然简单易实现,允许对编码数据执行测试或分析
任务,从而限制私人信息暴露给第三方系统或个人,但它们可能会导致信息泄露,
因为它们保留了太多输入数据的格式,从而增加了攻击者猜测私人信息的机会。
数据屏蔽指的是使用特殊的技术对数据进行屏蔽,属于动态脱敏,以确保敏感信
息无法被直接识别。与数据掩码技术相比,特别是当训练样本数量较大时,该方
法具有较低的风险。
Pham 等提出了一种用于隐私敏感学习的数据屏蔽技术。其主要思想是迭代
地寻找被屏蔽数据,使得分类器上关于被屏蔽数据的似然梯度为零,在保证隐私
保护的情况下屏蔽私有数据,同时确保在屏蔽数据上训练的分类器与在原始数据
上训练的分类器相似,以保持可用性。而这种方法占用较多内存,迭代的次数与
效率不成正比。针对数据屏蔽会占用大量资源且某些替代方法不能从根本上解决
数据丢失的问题,Bi 等提出基于模糊集的数据脱敏算法,使用模糊集对数据进
行脱敏以后,数据只有很小的概率会被修复。与基于数据变形思想的数据脱敏方
法相比,基于模糊集的脱敏方法具有较大优势。另外,由于模糊集具有很多种不
同的隶属度函数,可以实现对脱敏算法的智能选择。
传统的数据脱敏方法可能会破坏相关信息,进而造成数据泄露的问题,
Xiang 等提出一种基于改进的 Stackelberg 生成对抗网络。该网络与普通的生成对
抗网络相比,具备更多的发生器与训练器,同时引入一个具有 N 个鉴别器的特
殊领导者。在网络开始训练时,鉴别器的输出结果接近于 0,发生器的输出结果
接近于 1;在网络训练过程中,每个鉴别器都具备相同的权重,各自进行训练并
做出判断,通过领导者汇集所有结果,并计算结果的平均值。随着每个鉴别器不
断自我训练,模型效果会越来越理想,直至能够最大程度地区别实际数据与生成
数据,即此时的鉴别器与生成器处于平衡状态。
(三)数据分类分级
数据分类是从数据管理的角度出发,通过聚集具有相同属性或特征的信息,
形成不同的类别,便于使用者操作和鉴别数据信息。数据分级是从数据安全的角
度出发,按照信息的敏感程度或影响程度对数据信息进行分级。两者都可以更好
地管理和保护数据资源。
·119·

