Page 129 - 大数据背景下计算机信息安全及防护
P. 129

第四章 大数据安全防护技术



                  数据掩码方法属于静态数据脱敏技术,通过使用掩盖字符或通配符等符号,
              替换敏感信息来保护数据的隐私。例如,使用星号替代身份证号码中的部分数字,
              如“**19900101”。这种方法虽然简单易实现,允许对编码数据执行测试或分析
              任务,从而限制私人信息暴露给第三方系统或个人,但它们可能会导致信息泄露,

              因为它们保留了太多输入数据的格式,从而增加了攻击者猜测私人信息的机会。
              数据屏蔽指的是使用特殊的技术对数据进行屏蔽,属于动态脱敏,以确保敏感信
              息无法被直接识别。与数据掩码技术相比,特别是当训练样本数量较大时,该方
              法具有较低的风险。

                  Pham 等提出了一种用于隐私敏感学习的数据屏蔽技术。其主要思想是迭代
              地寻找被屏蔽数据,使得分类器上关于被屏蔽数据的似然梯度为零,在保证隐私
              保护的情况下屏蔽私有数据,同时确保在屏蔽数据上训练的分类器与在原始数据
              上训练的分类器相似,以保持可用性。而这种方法占用较多内存,迭代的次数与

              效率不成正比。针对数据屏蔽会占用大量资源且某些替代方法不能从根本上解决
              数据丢失的问题,Bi 等提出基于模糊集的数据脱敏算法,使用模糊集对数据进
              行脱敏以后,数据只有很小的概率会被修复。与基于数据变形思想的数据脱敏方
              法相比,基于模糊集的脱敏方法具有较大优势。另外,由于模糊集具有很多种不

              同的隶属度函数,可以实现对脱敏算法的智能选择。
                  传统的数据脱敏方法可能会破坏相关信息,进而造成数据泄露的问题,
              Xiang 等提出一种基于改进的 Stackelberg 生成对抗网络。该网络与普通的生成对
              抗网络相比,具备更多的发生器与训练器,同时引入一个具有 N 个鉴别器的特

              殊领导者。在网络开始训练时,鉴别器的输出结果接近于 0,发生器的输出结果
              接近于 1;在网络训练过程中,每个鉴别器都具备相同的权重,各自进行训练并
              做出判断,通过领导者汇集所有结果,并计算结果的平均值。随着每个鉴别器不
              断自我训练,模型效果会越来越理想,直至能够最大程度地区别实际数据与生成

              数据,即此时的鉴别器与生成器处于平衡状态。
                  (三)数据分类分级
                  数据分类是从数据管理的角度出发,通过聚集具有相同属性或特征的信息,
              形成不同的类别,便于使用者操作和鉴别数据信息。数据分级是从数据安全的角

              度出发,按照信息的敏感程度或影响程度对数据信息进行分级。两者都可以更好
              地管理和保护数据资源。


                                                                                  ·119·
   124   125   126   127   128   129   130   131   132   133   134