Page 105 - 大数据背景下网络安全问题研究

P. 105

» 第四章网络攻击与漏洞利用

7.基于人工智能的网络安全平台AI2

该平台结合无监督机器学习和有监督学习的方法，首先用无监督机器学习自主扫
描日志文件，分析人员确认扫描结果，并将确认结果纳入AI2系统，用于对新日志的
分析。该平台能检测出约85%的网络攻击。

8.基于机器学习的通用漏洞检测方法
这是第一个基于漏洞不一致性的通用漏洞检测方法。区别于已有漏洞检测方法，
该方法使用两步聚类来检测功能相似但不一致的代码片段，无需花费大量时间进行样
本收集、清理及打标签。同时，该方法采用手工分析聚类结果，以更快定位真正的漏

洞。该方法发现了开源软件中未知的22个漏洞。
9.基于深度学习的威胁情报知识图谱构建技术
利用深度置信网络DBN训练的模型，对威胁情报的实体和实体关系进行自动化抽
取。该方法较浅层神经网络的识别准确率有较大提高，比人工抽取的速率也有很大提

高，可为自动化构建威胁情报知识图谱提供有力的保障。
10.基于混合词向量深度学习模型的DGA域名检测方法
首次结合了DGA域名的字符级词向量和双字母组词向量，以提高域名字符串的信
息利用度，并设计了基于混合词向量方法的深度学习模型，模型由卷积神经网络CNN

和LSTM组成。实验证明该方法有着较好的特征提取能力与分类效果，并在一定程度
上缓解了数据不平衡带来的负面影响。从上述应用研究可以看出，目前人工智能应用
研究主要以恶意行为检测为主，在检测成果基础上不断提升响应处置、积极防御和威
胁预测的能力。

（三）针对人工智能自身安全问题的攻击
随着人工智能的广泛应用，由于技术不成熟及恶意应用导致的安全风险逐渐暴
露，包括深度学习框架中的软件实现漏洞、恶意对抗样本生成、训练数据投毒及数据

强依赖等。黑客可通过找到人工智能系统弱点以绕过防御进行攻击，导致人工智能所
驱动的系统出现混乱，形成漏判或者误判，甚至导致系统崩溃或被劫持。人工智能的
自身安全问题，主要体现在训练数据、开发框架、算法、模型及承载人工智能系统的
软硬件设备等方面，具体内容如下。

1.数据安全
数据集的质量（如数据的规模、均衡性及准确性等）对人工智能算法的应用至关
重要，影响着人工智能算法的执行结果。不好的数据集会使得人工智能算法模型无效
或者出现不安全的结果。较为常见的安全问题为数据投毒攻击，通过训练数据污染导

致人工智能决策错误。例如，垃圾邮件发送者通过在垃圾邮件中插入“好话”，实现
简单的“回避攻击”以绕过垃圾邮件过滤器中的分类器，从而使得恶意邮件逃避垃圾

• 93 •

100 101 102 103 104 105 106 107 108 109 110