Page 111 - 大数据背景下计算机信息安全及防护
P. 111

第四章 大数据安全防护技术



              生、分配、保存、更换和销毁等密钥全生命周期的管理和保护。
                  (三)数据脱敏技术
                  敏感数据识别技术主要用于在海量的数据中发现敏感数据,帮助企业快速发
              现敏感数据并同时进行脱敏处理,以防止敏感数据被随意使用甚至于发生泄漏事

              件。传统敏感数据识别主要通过关键字匹配、数据字典等方式实现,但是这种方
              法效率较低,而且准确率也不高。随着人工智能和机器学习技术的发展和使用,
              敏感数据可通过机器学习技术实现大数据量的统计分析,并形成相应的规则库,
              进一步提高了自动化识别效率以及准确率。目前脱敏算法有哈希脱敏、加密脱敏、

              遮盖脱敏、变换脱敏、替换脱敏等。
                  哈希脱敏:属于不可逆算法。包含算法有 MD5、SHA-1、SHA-256、HMAC,
              敏感类型为密钥型,适用于密码类或需要通过对比进行敏感数据确认的场景。
                  加密脱敏:属于可逆算法。包含算法有 DES 算法、3DES 算法、AES 算法,

              敏感类型为个人敏感和企业敏感,适用于对需要回源的字段进行加密的场景,支
              持常见的对称加密算法。
                  遮盖脱敏:属于不可逆算法。通常使用特殊字符(* 或者 #)对部分信息进
              行掩盖,达到脱敏的效果,是一种比较常用的脱敏方式。算法处理有:保留前 n

              后 m,保留自 x 至 y,遮盖前 n 后 m,遮盖自 x 至 y,特殊字符前遮盖(针对首
              次出现该字符),特殊字符后遮盖(针对首次出现该字符)。敏感类型为个人敏
              感,适用于前端页面展示或者敏感数据分享的场景。
                  变换脱敏:部分可逆算法。提供对数字或者日期等进行取整操作(属于不可

              逆)和对文字进行位移操作(属于可逆)两类变换脱敏算法。如:数字取整,保
              留小数点前 N 位,日期取整,字符位移。敏感类型为通用敏感,适用于对敏感
              数据集进行分析和统计类场景。
                  替换脱敏:部分可逆算法。顾名思义,就是对数据进行替换。使用替换码表

              进行映射替换(属于可逆)或者使用随机区间进行随机替换(属于不可逆)来实
              现字段整体或者部分内容的脱敏。如:身份证对应行政区划随机码表进行替换或
              者随机替换,军官证对应种类编码随机码表进行随机替换,通用表格对应大小写
              字母映射码、数字映射码、特殊映射码进行映射替换等。敏感类型为个人敏感、

              企业敏感、设备敏感。适用于证件号等构成规则固定的字段脱敏,或者数据存储、
              数据分享的场景。


                                                                                  ·101·
   106   107   108   109   110   111   112   113   114   115   116