Page 145 - 大数据背景下网络安全问题研究

P. 145

» 第五章机器学习在网络信息安全中的应用

测个人信息。例如，得某些疾病的概率，此类个人信息对使用者而言，属于个人隐私
信息，但是不可信任的服务提供商和第三方机构可以盗取使用者的此类个人信息，因
此可以应用Crypto-Nets加密数据，或者直接在密文上进行预言，并传递的预言结论，
为在线医疗诊断模型预测结论提供了秘密的保护训练数据隐私权、模式隐私权、模型
预测结论隐私权都是在进行机械教学时，必须着重保障的信息内容。如若个人信息如

果泄露，将会威胁到使用者对敏感数据的安全，或给服务提供商造成了很大的损失，
这也是云计算发展中遇到的主要阻碍。因此，基于云计算技术的机器学习与服务系统
需要在越来越关注信息安全方面，以进一步增强信息安全保护能力。

（二）机器学习隐私威胁及隐私保护技术
机器学习常见的隐私威胁机器学习模型会无意识记忆某些训练数据，但也有些训
练数据包含了人类的秘密信息，如习惯、喜好、地理位置等。
1.训练阶段的隐私威胁

大型企业则多用集中训练方法，由于有一定多的应用易于获取大规模的数据进
行分析。但目前，在面向企业采集使用者数据分析以保障使用者信息安全行业还缺乏
某个统一的标准。在获取用户数据流程中，会透露部分使用者的秘密，因此Google和
Apple企业必须通过差分隐私的方法保存用户数据，在实际使用数据流程中，即使单

一的数据信息毫无意义，但数据分析信息仍有使用价值。为扩展训练数据集获得更准
确的目标模型，某些数据提供方必须通过合作共享数据信息，共享培训目标模型。共
享并不仅指通过对其他参加方开放数据信息，所有主要参加者可以单独在各种数据分
析集上训练自己的模式，与其他参加方共用培训成果，从而间接共用了他们的培训数

据信息。
2.数据提取攻击
数据提取进攻，亦称为培训模式的逆向进攻，由Fredrikson等人最早提出，是指

培训利用访问模式API，并利用一系列的查询来提取模型培训数据里的秘密数据信息
的一个攻击方法，利用数据提取进攻所导致的隐私数据泄漏可能会带来很大的生命危
险。例如，针对培训的模式获取了患者的基因组信息，并且可能使药物错配，进而
造成了生命危险，Fredrikson等人利用已经培训好的模式，并且成功地利用数据提取
进攻重构了人脸画像；Ateniese等人，建立了一个分类器使其能够通过进攻一些分类

器，从而获得了训练数据；Song等人还证实了练习好的模式将会记住大批秘密信息，
因为一旦出现恶意ML算法的模式训练者，那么模式就能够泄漏训练数据集的所有个
人信息。同时，Carlini等人还介绍了一个能够获取大批秘密信息的算法，他们能够利

用不断查询模式来收集如信用卡号、ID号码等大批秘密信息。

• 133 •

140 141 142 143 144 145 146 147 148 149 150