Page 111 - 大数据背景下计算机信息安全及防护
P. 111
第四章 大数据安全防护技术
生、分配、保存、更换和销毁等密钥全生命周期的管理和保护。
(三)数据脱敏技术
敏感数据识别技术主要用于在海量的数据中发现敏感数据,帮助企业快速发
现敏感数据并同时进行脱敏处理,以防止敏感数据被随意使用甚至于发生泄漏事
件。传统敏感数据识别主要通过关键字匹配、数据字典等方式实现,但是这种方
法效率较低,而且准确率也不高。随着人工智能和机器学习技术的发展和使用,
敏感数据可通过机器学习技术实现大数据量的统计分析,并形成相应的规则库,
进一步提高了自动化识别效率以及准确率。目前脱敏算法有哈希脱敏、加密脱敏、
遮盖脱敏、变换脱敏、替换脱敏等。
哈希脱敏:属于不可逆算法。包含算法有 MD5、SHA-1、SHA-256、HMAC,
敏感类型为密钥型,适用于密码类或需要通过对比进行敏感数据确认的场景。
加密脱敏:属于可逆算法。包含算法有 DES 算法、3DES 算法、AES 算法,
敏感类型为个人敏感和企业敏感,适用于对需要回源的字段进行加密的场景,支
持常见的对称加密算法。
遮盖脱敏:属于不可逆算法。通常使用特殊字符(* 或者 #)对部分信息进
行掩盖,达到脱敏的效果,是一种比较常用的脱敏方式。算法处理有:保留前 n
后 m,保留自 x 至 y,遮盖前 n 后 m,遮盖自 x 至 y,特殊字符前遮盖(针对首
次出现该字符),特殊字符后遮盖(针对首次出现该字符)。敏感类型为个人敏
感,适用于前端页面展示或者敏感数据分享的场景。
变换脱敏:部分可逆算法。提供对数字或者日期等进行取整操作(属于不可
逆)和对文字进行位移操作(属于可逆)两类变换脱敏算法。如:数字取整,保
留小数点前 N 位,日期取整,字符位移。敏感类型为通用敏感,适用于对敏感
数据集进行分析和统计类场景。
替换脱敏:部分可逆算法。顾名思义,就是对数据进行替换。使用替换码表
进行映射替换(属于可逆)或者使用随机区间进行随机替换(属于不可逆)来实
现字段整体或者部分内容的脱敏。如:身份证对应行政区划随机码表进行替换或
者随机替换,军官证对应种类编码随机码表进行随机替换,通用表格对应大小写
字母映射码、数字映射码、特殊映射码进行映射替换等。敏感类型为个人敏感、
企业敏感、设备敏感。适用于证件号等构成规则固定的字段脱敏,或者数据存储、
数据分享的场景。
·101·

