Page 168 - 大数据背景下计算机信息安全及防护
P. 168
大数据背景下计算机信息安全及防护
Computer Information Security and Protection in the Context of Big Data
第二节 人工智能安全风险防控现状
一、人工智能系统发展的主要风险
(一)数据安全风险
中国的数据要素蕴涵巨大的潜在价值,若数据要素的价值能得到充分释放,
遵循“潜在价值—价值创造—价值实现”的演进形态,必将对社会经济发展起到
重要推动作用。在生成式人工智能技术中,数据安全风险大致可以分为两类:一
是训练数据本身的内在安全风险,二是数据采集、使用等过程中的安全风险。
以生成式人工智能的数据大模型训练为例,其训练的结果直接依赖于输入的
数据,形成前所未有的数据汇聚。然而受数据采集条件的限制,来源于不同群体
的数据所占的比例并不均衡,如当下训练语料大多是英文和中文,其他少数语种
很难融入人工智能世界当中,具有一定的局限性。《暂行办法》提到“鼓励采用
安全可信的芯片、软件、工具、算力和数据资源”,其中安全可信的数据资源便
是针对生成式人工智能的技术特点。由于训练数据的质量会直接影响生成式人工
智能的生成内容质量,有违伦理等要素的数据此时就可被称为具有安全风险的数
据,该数据资源便不符合安全可信的要求。
除此以外,生成式人工智能的数据采集和使用过程也极易产生数据安全问题。
数据泄露是信任危机诞生的主要来源,而巨大规模的参数是实现生成式人工智能
服务技术的关键,目前 GPT-4 的训练数据量已达到 13 万亿。虽然目前主流的生
成式人工智能技术服务提供者并没有公布数据来源,但通过现有的披露信息可知
这些数据主要使用的是公共爬虫数据集和有着超过万亿单词的人类语言数据集。
某种程度上,生成式人工智能服务技术是未来超级数字助理的雏形,在智能基础
设施的支持之下,每个人甚至可以拥有多个数字分身,协同完成任务。可以想见,
数字助理的背后是大语言模型访问、链接个人以及企业的私有数据,数据的融合
利用一定是无缝衔接的。此类数据的访问处理如何以安全、合规、保护隐私的方
式进行,对安全技术保障措施提出了更高要求。
随着互联网技术的发展,个人信息数量剧增,同时也变得更容易被采集。通
过使用社交软件、购物软件以及交通软件,用户信息便可被轻易采集,而在智能
设备使用过程中,诸如用户生理信息、生物特征等更多种类的数据也可被获取,
·158·

