魏景鹏
(北京航天数据股份有限公司北京100144)
摘
要:本文以常见敏感数据分类为切入点,对数据脱敏、脱敏视角、脱敏对象、脱敏评估、脱敏方法进行描述和分析,期待
读者能对数据脱敏有进一步的认识,并在信息化过程中加以推广和应用,促进应用系统的健康发展。
关键词:数据;脱敏
一、发展现状
在互联网走向大众时,浏览器参数设置中出现隐私数据
相关的声明或内容,后续逐渐出现数据倒卖现象。近年随着信息技术的不断革新,企业级、桌面级应用云化趋势明显,进驻移动设备的应用越来越丰富,这些应用均将用户数据存储在云端,各行其是的存储方式和参差不齐的管理策略加大了泄漏的风险,倒卖数据的现象时有发生。
这些数据涉及到治理数据、商业数据、个人隐私数据等。从历年案例来看,未经脱敏的数据泄漏后均对社会、单位、个人产生较大负面影响。
二、数据脱敏
数据脱敏是一种悲观、主动的数据保护手段。系统漏洞难以避免,入侵方可利用漏洞渗入或控制系统获取任意数据;若未经脱敏处理,数据泄漏产生的影响或破坏是难以弥补的。
脱敏后的数据不能对主体功能产生影响。不能因脱敏处理导致系统应用异常或业务流程无法继续。
脱敏后的数据中非敏感部分可根据业务需要、保留直接或间接的真实特征,避免因为对数据进行脱敏导致原始数据无法进行复核。
脱敏后的数据应具备一定的防篡改特征。脱敏数据被篡改后,系统或应用可进行甄别并进行标识。
脱敏后的数据可选择性支持可还原性,支持合法用户必要时看到真实完整的数据。
三、脱敏视角
(一)应用维度
每个应用都难免涉及到敏感数据,常见的场景如下:1.资讯博客类,如:对辱骂字眼、极端言论、时事焦点的处理。
2.影视音乐类,如:对辱骂字眼、极端言论、影音字幕、影视画面等的处理。
3.公共服务类,如:对经纬度坐标、金融信息、医疗信息、征信信息等的处理。
4.文旅购物类,如:对产品、价格、库存、销量等的处理。5.游戏办公类,如:对账号、在线时长、文件名称、识别信息等的处理。
6.个人私密类,如:对电话本、相册、日程表、记账簿相关内容的处理。
上述应用在注册时,还可能进一步涉及电话、身份证、住址、生物信息等隐私数据。
(二)用户维度
在常见系统中一般有三类用户与数据接触频繁:一是系统的普通用户,二是系统的管理用户,三是系统的运维人员。
1.普通用户。普通用户既是数据的生产者,也是数据的消费者。作为生产者,数据成果可能无意间透露一些敏感信息,应具备相应的更新或替换权限;作为消费者,不应在未授
权的情况下看到敏感数据。
2.管理用户。管理用户负责业务管理功能,可对敏感信息、脱敏规则进行定义,并对用户的作品或内容进行审核处理,不符合要求的部分进行清退或进行脱敏处理,防止敏感信息被消费。
3.运维人员。运维人员视为含客服、系统运维、DBA、研发人员等,出于业务需要,可能会频繁接触局部或全部的数据。应制定好相应规则或逻辑对数据进行脱敏,防止敏感信息成批泄露。
(三)系统维度
1.采集子系统。直观地体现为用户界面,获取或展示数据的窗口。收集数据时,可对已定义的敏感数据进行脱敏,防止在下一环节泄露;在展示数据时,应对敏感数据进行脱敏,防止意外泄露。
2.传输子系统。端与端之间负责传输的部分,由若干软硬件构成,是数据传输的载体。直观地体现为宽带、移动网络等。建议采用SSL证书对数据进行加密处理,防止中间环节的数据泄露。
3.应用子系统。应用子系统是指负责处理数据的主体应用。对输入的数据进行逻辑处理,可对敏感数据进行脱敏,防止敏感数据进入下一环节。
4.日志子系统。日志子系统负责记录应用子系统的运行情况,可包含输入输出的详细信息,通常用于对系统进行排查或审计。应对敏感数据进行必要的脱敏处理,防止在排查或审计时数据泄露。
5.存取子系统。通常指的是各种类型的数据库,是数据存储的最终位置。批量数据的泄露几乎都是因为数据库数据泄露。入库、出库之前的敏感数据必须经过脱敏处理。
四、脱敏对象
(一)文本型数据
文本一直是数据脱敏处理的重点,广泛存在于新闻、即时通讯、朋友圈、博客、社区、各种评价中,传播速度快,影响范围广。目前仍以对关键字进行灰化处理为主,即把不符合规则的文字进行替换。众所周知,描述相同意思可有多种表达方式,某些场景下还可以进行拆字、合字,这种只可意会不可言传的表述方式难以制定规则进行识别。对文本进行脱敏仍任重而道远。
(二)数字型数据
数字型数据包含整数、小数、百分比等,常见于科普实验、分析统计、金融交易类内容。该类数据的敏感性及脱敏方法视乎数据内容。一旦泄露轻则个人受损,重则动摇根本。涉及到进一步计算的数据需具备可还原性。
(三)二进制数据
日常看到听到的音视频数据、文件都可归类于二进制数据。该类数据结构复杂、特征复杂,脱敏难度较大,目前还没有通用的处理方法。需要根据具体应用场景对此类数据进行针对性处理;对于音视频数据可能需要引入机器学习、人
042Copyright©博看网 www.bookan.com.cn. All Rights Reserved.网络商务工智能等先进技术进行批量脱敏。
信息版2021.03五、脱敏评估
(一)k-Anonymity
原始数据表为T{A1,A2,...,An},设匿名化后数据表为RT{A1,A2,…,An},QIRT是与其对应的准标识符,如果RT[QIRT]中的每个序列值在RT[QIRT]中至少出现K次(K>1),称数据表RT满足k-Anonymity。
(二)l-Diversity
若表RT{A1,A2,…,An}满足k-Anonymity,且同一等价类中的记录至少有L个“Well-represented”的值,则称匿名数据表RT{A1,A2,…,An}是l-Diversity的。
(三)t-Closeness
数据表在满足k-Anonymity的同时,还要求等价类内敏感属性值的分布与敏感属性值在匿名化表中的总体分布的差异不超过t。它在l-Diversity基础上,考虑了敏感属性的分布问题,它要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布。
六、脱敏方法
数据脱敏本质上是对原始数据进行不同程度的加密。有些具备可还原性,有些是加密方式,有些是近现代加密方式。业内通常把数据脱敏分为静态脱敏和动态脱敏两类,二者在时机、场景上或有所区别,在脱敏方式上并无本质上的区别。下文将重点对脱敏方法进行说明。
(一)加密
本文中谈到的加密特指的是涉及较复杂运算的近现代加密。对数据进行加密处理是最为常见的脱敏方法之一。加密方法众多,一般分为对称式加密、非对称式加密两种,有些加密方法还需要密钥(盐)。无论选哪一种,脱敏后的数据均具备可还原性,完整保留了数据的原始特征。一般在存储数据时进行加密处理,能够在系统维护层面有效保证数据不泄露。加密后的数据对计算支持有限,基于加密数据的计算目前仍不成熟,在采用加密方式进行脱敏时,应尽量避免参与规模计算。
(二)替换替换脱敏,是根据脱敏规则和字典对敏感信息进行替换的脱敏方法,通常计算量不大,效率较高。
例如文本数据中用A-J替换0-9,31800318000替换后变为DBIAADBIAAA;对前4位进行脱敏处理,则31800318000替换后变为DBIA0318000;若0、1、3、8在字典中对应的字符为*,则对前四位进行脱敏就变为常见的****0318000。
对于非文本型数据可对字节码中的高4位、低4位进行替换处理,如当用0xF、0x3互换、0x8、0xA互换时,0x2F3A脱敏处理后将变为0x23F8。
(三)偏移
偏移是一种古典加密方法,通过对数据进行位置偏移得到新数据,不涉及复杂运算,效率较高。
例如文本数据31800318000全部向右偏移1个位置后变为42911429111;对前4位进行偏移一个位置,则31800318000变为42910318000;汉字可采用内置编码进行偏移处理,如:“文字”对应的UTF-16编码为0x65870x5B57,向右偏移一个位置对应的编码为0x65860x5B56,将显示为“斆孖”。
(四)随机
当生产环境下的数据进行批量迁移时,应对敏感数据进行脱敏。为防止数据泄露,可对部分数据进行随机填充进行脱敏。如对敏感的文本数据进行随机字符填充,对敏感的数字型数据进行随机数填充等。经过随机脱敏处理过的数据,可能在数据一致性、逻辑完整性存在一些问题,进行批量数据脱敏时需进行考虑。
(五)映射
映射是利用字典映射对数据进行脱敏处理的方法。谍
战影视中经常出现情报收发场景,播音员通过广播发送数字代码,破译人员记录代码并利用密码本进行破译,这种方式很形象地体现了映射脱敏。在信息系统中经常会用到字典(表)、元数据等,这些都是映射的具体应用。如果缺失这些信息,其他相关数据基本上就是无效数据,在一定程度上达到了数据脱敏的效果。文本型、数字型数据都可以采用映射对数据脱敏。
(六)乱序
乱序脱敏是按照一定的规则对数据进行切分、重新排序的处理方法。小学课程中的排词组句就是乱序的一种体现。经过乱序处理后的数据虽然保留了数据的完整性,但因数据被打乱,没有乱序逻辑做支撑,很难对数据进行还原。文本型数据通过乱序处理的结果比较直观,数字型数据、二级制数据可通过对字节进行乱序处理达到脱敏的效果。
(七)泛化
泛化脱敏是根据一类数据的公共特征对区别部分进行隐藏的处理方法。前文提到的替换脱敏用*进行替换的例子也可认为是泛化脱敏实例。实际中能体现泛化脱敏的应用很常见,比如用年龄段代替实际年龄,用“地区用户”代替用户具体位置,用*替换具体的ip地址信息等。泛化脱敏后的数据不具备可还原性,可用于分类统计。文本型数据、数字型数据均可采用泛化进行脱敏;二进制数据在特定场景下也可采用泛化脱敏。
(八)散列
散列脱敏是对原始数据进行序列化并进行HASH运算的脱敏方法,脱敏后的数据具备完整的数据特征,但一般不具备可还原性。在检查用户输入密码正确性时经常用到散列脱敏,把输入数据的脱敏值与原始数据的脱敏值进行比较,以保证输入与原始数据的一致性,规避了存储用户密码的风险。
(九)干扰
干扰脱敏是按照一定的规则对原始数据进行插入处理的数据脱敏方法。干扰脱敏处理后的数据仍保留了数据的完整性,具备可还原性。如对“It’sadog.”间隔1词进行干扰处理,脱敏后的数据可以是“It’snotayellowdog.”,脱敏后的数据与原始数据的含义已截然不同。干扰脱敏后的数据不一定具备人工可读性。此外还可以通过插入额外记录的方式对数据进行干扰脱敏,可根据具体场景进行相关设计。文本型数据、数字型数据、二进制数据均可以采用干扰脱敏,干扰脱敏后的数据会占用一定的额外存储空间。
七、总结
信息系统开发者、管理者应结合具体工作需要,对敏感数据给予充分重视,不断识别出敏感数据,利用各种已知的脱敏方法和脱敏工具对数据进行脱敏,做好事前预防、事中监测、事后改进的相关工作,也期待越来越多的读者对数据脱敏有所了解,并在以后的工作中进行深化和实践,共同促进互联网应用的健康发展。
参考文献:
[1]GB/T32921—2016信息安全技术,信息技术产品供应方行为安全准则.
[2]《中华人民共和国网络安全法》2016年11月7日第十二届全国人民代表大会常务委员会第二十四次会议通过,2017年6月1日起施行.
[3]电信和互联网用户个人信息保护规定》2013年7月16日中华人民共和国工业和信息化部令第24号公布,2013年9月1日起施行.
作者简介:魏景鹏(1977-),男,山东青岛人,汉族,本科,高级工程师,从事信息系统项目管理、信息安全、工业大数据研究。
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.043
因篇幅问题不能全部显示,请点此查看更多更全内容