/【雷火UX数据挖掘】关注数据安全:数据脱敏技术简介

【雷火UX数据挖掘】关注数据安全:数据脱敏技术简介

大数据时代的到来,数据成为重要的生产要素。对于数据控制者和数据处理者而言,如何最大化数据流动的价值,是数据挖掘的初衷和意义。然而,一系列信息泄露事件的曝光,使得数据安全越来越受到广泛的关注。
在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体的财产、名誉、人身安全、以及合法利益造成严重损害。因此我们需要严格控制对仓库中的数据访问。这就要求对数据本身的敏感程度进行安全级别划分。数据有了安全等级的划分,才能更好管理对数据访问控制,以此来保护好数据安全。
但是在实际生产过程中,应用场景会更加复杂,仅靠类似这样的访问控制,满足不了生产的需要,还需要结合其它的途径,而数据脱敏就是一种有效的方式,既能满足日常生产的需要,又能保护数据安全。

1

什么是数据脱敏

数据脱敏,具体指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样可以使数据本身的安全等级降级,就可以在开发、测试和其它非生产环境以及外包或云计算环境中安全地使用脱敏后的真实数据集。
但是要注意,借助数据脱敏技术,在抹去数据中敏感内容的同时,也需要保持原有的数据特征、业务规则和数据关联性,保证我们在开发、测试以及数据分析类业务上不会受到脱敏的影响,使脱敏前后的数据一致性和有效性。

2

数据脱敏策略 

从策略上,数据脱敏又分为静态数据脱敏(SDM)和动态数据脱敏(DDM)。

静态数据脱敏

静态数据脱敏,是数据的“搬移并仿真替换”,是将数据抽取进行脱敏处理后,下发给下游环节随意取用和读写的,脱敏后数据与生产环境相隔离,满足业务需求的同时保障生产数据库的安全。

静态数据脱敏适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景。有时我们可能需要将生产环境的数据 copy 到测试、开发库中,以此来排查问题或进行数据分析,但出于安全考虑又不能将敏感数据存储于非生产环境,此时就要把敏感数据从生产环境脱敏完毕之后再在非生产环境使用。这样脱敏后的数据与生产环境隔离,满足业务需要的同时又保障了生产数据的安全。

如上图所示,将用户的真实姓名、手机号、身份证、银行卡号通过替换、无效化、乱序、对称加密等方案进行脱敏改造。

动态数据脱敏

动态数据脱敏,在访问敏感数据的同时实时进行脱敏处理,可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案,从而确保返回的数据可用而安全。

动态数据脱敏一般用于生产环境,因为有时在不同情况下对于同一敏感数据的读取,需要做不同级别的脱敏处理,例如:不同角色、不同权限所执行的脱敏方案会不同。

静态脱敏与动态脱敏技术路线的区别

静态脱敏直接通过屏蔽、变形、替换、随机、格式保留加密(FPE)和强加密算法(如AES)等多种脱敏算法,针对不同数据类型进行数据掩码扰乱,并可将脱敏后的数据按用户需求,装载至不同环境中。静态脱敏可提供文件至文件、文件至数据库、数据库至数据库、数据库至文件等不同装载方式。导出的数据是以脱敏后的形式存储于外部存贮介质中,实际上已经改变了存储的数据内容。

动态脱敏通过准确的解析SQL语句匹配脱敏条件,例如:访问IP、MAC、数据库用户、客户端工具、操作系统用户、主机名、时间、影响行数等,在匹配成功后改写查询SQL或者拦截防护返回脱敏后的数据到应用端,从而实现敏感数据的脱敏。实际上存储于生产库的数据未发生任何变化。

3

数据脱敏方案 

数据脱敏系统可以按照不同业务场景自行定义和编写脱敏规则,可以针对库表的某个敏感字段,进行数据的不落地脱敏。

数据脱敏的方式有很多种,但不管哪种手段都要基于不同的应用场景,遵循下面两个原则:
  • remain meaningful for application logic(尽可能的为脱敏后的应用,保留脱敏前的有意义信息)
  • sufficiently treated to avoid reverse engineer(最大程度上防止黑客进行破解)

无效化

无效化方案在处理待脱敏的数据时,通过对字段数据值进行截断、加密、隐藏等方式让敏感数据脱敏,使其不再具有利用价值。一般采用特殊字符(*等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户授权查询。比如我们将身份证号用 * 替换真实数字就变成了 "220724 ****** 3523",非常简单。

随机值

随机值替换,字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法是用户不易察觉的。

数据替换

数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成 “13651300000”。

对称加密

对称加密是一种特殊的可逆脱敏方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥解密可以恢复原始数据,要注意的就是密钥的安全性。

平均值

平均值方案经常用在统计场景,针对数值型数据,我们先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。

偏移和取整
这种方式通过随机移位改变数字数据,偏移取整在保持了数据安全性的同时保证了范围的大致真实性,比之前几种方案更接近真实数据,在大数据分析场景中意义比较大。比如日期字段2020-12-08 15:12:25 变为 2018-01-02 15:00:00。
数据脱敏规则在实际应用中往往都是多种方案配合使用,以此来达到更高的安全级别。

4

 总  结 

无论是静态脱敏还是动态脱敏,其最终都是为了防止组织内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下从组织流出。在数据脱敏方案设计与实施过程中,更重要的还是从特定的应用场景出发进行整体设计,兼顾数据仓库建设这一重要考量维度。数据脱敏实施可以为组织数据安全的推进提供有力支持。
参考文献:
[1].http://en.wikipedia.org/wiki/Data_masking
[2].https://www.intel.com/content/dam/www/public/us/en/documents/best-practices/enhancing-cloud-security-using-data-anonymization.pdf
[3].https://www.computer.org/csdl/journal/tq/2011/03/ttq2011030337/13rRUxASuUm

最后欢迎大家投递雷火UX设计面向2022届毕业生的校招岗位

雷火UX商务沟通:grp.leihuoux@corp.netease.com
往期推荐


本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。