加入收藏 | 设为首页 | 会员中心 | 我要投稿 湘西站长网 (https://www.0743zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

数据安全事件频发,数据脱敏技术发展趋势如何?

发布时间:2020-06-04 21:07:49 所属栏目:评论 来源:站长网
导读:副标题#e# 在当前的大数据时代,各类数据分析应用技术已经广泛应用在国家治理、企业运行、个人日常生活等各个方面,数据成为时下最热门的基础资源,因此数据安全的受关注程度也在不断攀升,成为颇受重视的话题。 1 引言 在当前的大数据时代,各类数据分析应
副标题[/!--empirenews.page--]

在当前的大数据时代,各类数据分析应用技术已经广泛应用在国家治理、企业运行、个人日常生活等各个方面,数据成为时下最热门的基础资源,因此数据安全的受关注程度也在不断攀升,成为颇受重视的话题。

1 引言

在当前的大数据时代,各类数据分析应用技术已经广泛应用在国家治理、企业运行、个人日常生活等各个方面,数据成为时下最热门的基础资源,因此数据安全的受关注程度也在不断攀升,成为颇受重视的话题。

近年来,在国际上数据安全事件频发,尤其是数据泄露事件,根据Risk Based Security于2019年下半年发布的数据,整个2019年上半年发生数据泄露事件3800余起,相对于2018年同期数据增长了54%。数据泄露事件通常还会带来显式或隐式的经济损失,安全研究中心Ponemon Institute和IBM Security联合发布的《2019年数据泄露成本报告》中指出,超过100万条记录的泄露预计会给企业带来4200万美元的损失,当泄露记录超过5000万条时,预计带来的损失将达到3.88亿美元[1]。

安全事件的不断爆发,以及事件背后相应可能带来的潜在重大危害和巨额损失,不断驱使着国家、行业、企业等各层面更加重视数据安全,并开始从法规、标准、制度等方面切入展开相应举措。欧盟在2018年出台《通用数据保护条例》(GDPR),规定了企业如何收集、使用和处理欧盟公民的个人数据。2019年5月28日,国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》中,明确要求对于个人信息的保存和提供要经过匿名化处理,以切实降低在数据应用中个人信息可能存在的泄露风险[2]。

2 数据脱敏技术

数据脱敏技术是一种可以通过数据变形方式对于敏感数据进行处理,从而降低数据敏感程度的一种数据处理技术。适当地使用数据脱敏技术,可以有效地减少敏感数据在采集、传输、使用等环节中的暴露,降低敏感数据泄露的风险,尽可能降低数据泄露造成的危害。根据不同的数据脱敏规则和算法,可以对特定敏感数据使用若干种数据变形方式进行组合处理,在不同程度上降低数据的敏感程度,在较为严格的脱敏规则和算法下可实现匿名化处理。

数据脱敏技术本质上是对于数据的变形处理,因此数据脱敏技术的另一大特点是能够在一定程度上保持数据原本的一些特性,使脱敏后的数据依旧存在可用性。针对整个数据集使用统一的脱敏处理算法,可以保证在降低数据敏感程度的同时,数据集整体的统计特性、数据唯一性不发生改变,从而能够继续满足关联分析、机器学习、即时查询等应用场景的使用需求。

2.1 数据脱敏算法与匿名化方法

在实际应用数据脱敏技术时,常常会涉及到脱敏算法、脱敏规则、脱敏策略3 个不同的概念。

数据脱敏技术的核心是通过对敏感数据进行变形处理以降低其敏感程度。其中,在脱敏处理过程中使用的特定数据变形方式为脱敏算法。在原始脱敏算法的基础上,通过将一种或多种脱敏算法的组合应用在一种特定的敏感数据上便形成了脱敏规则。在具体的业务场景中,根据不同业务场景选择特定一系列脱敏规则可称为脱敏策略。相关示例见表1。

表1 脱敏算法、脱敏规则、脱敏策略概念示例

对于数据脱敏技术以及实现数据脱敏的应用及工具,数据脱敏算法均是其中的核心能力,常见的脱敏算法包括加密、掩码、替换、模糊等。

在上述提到的基础脱敏算法之外,为了实现更高程度的敏感信息保护能力,尤其是达到特定水平的敏感程度降低,还存在更多复杂的针对于数据集整体的脱敏策略。例如,在个人信息保护场景中的匿名化要求下,需要使用k匿名化、l多样化、t贴近性等匿名化方法。

k匿名化方法要求数据集中的每一条记录至少需要与其他k-1条记录无法进行直接区分,即数据集中每种敏感属性组合至少需要同时出现在k条记录中,无法被区分的k条记录形成一个等价类[3]。l多样化是基于k匿名化方法在敏感属性方面的一种扩展,该方法要求数据集在匿名化处理时每个等价类中所有记录的敏感属性至少包含l个互不相同的敏感属性值[4]。t贴近性方法要求所有等价类中敏感属性值的分布尽量接近该属性在整个数据集中的全局分布,从而可以抵抗偏斜攻击[5]。

2.2 数据脱敏技术分类

当前数据脱敏技术主要可以分为静态数据脱敏和动态数据脱敏两类,两者面向的使用场景不同,实现时采用的技术路线和实现机制也均有所不同。

2.2.1

静态数据脱敏静态数据脱敏的主要目标是实现对完整数据集的大批量数据进行一次性整体脱敏处理,一般会按照制定好的数据脱敏规则,使用类似ETL技术的处理方式,对于数据集进行统一的变形转换处理。在根据脱敏规则降低数据敏感程度的同时,静态脱敏能够尽可能减少对于数据集原本的内在数据关联性、统计特征等可挖掘信息的破坏,保留更多有价值的信息。静态脱敏通常在需要使用生产环境中的敏感数据进行开发、测试或者外发的场景中使用。

2.2.2

动态数据脱敏动态数据脱敏的主要目标是对外部申请访问的敏感数据进行实时脱敏处理,并即时返回处理后的结果,一般通过类似网络代理的中间件技术,按照脱敏规则对外部的访问申请和返回结果进行即时变形转换处理。在根据脱敏规则降低数据敏感程度的同时,动态脱敏能够最大程度上降低数据需求方获取脱敏数据的延迟,通过适当的脱敏规则设计和实现,即使是实时产生的数据也能够通过请求访问返回脱敏后的数据。动态数据脱敏通常会在敏感数据需要对外部提供访问查询服务的场景中使用。

3 数据脱敏技术应用现状

数据脱敏技术的应用在近几年不断呈现上升的趋势,根据Gartner发布的《数据脱敏市场指南》,2017年使用数据脱敏或其他类似去识别技术的企业占比为15%,这一数据在2018年增加到了20%,预计在2022年将达到50%[6]。

3.1 数据脱敏技术行业应用现状

在实际应用中,数据脱敏技术通常应用在涉及到个人隐私数据存储和应用的部分行业领域,因此广泛应用于政务、金融、电信、互联网等行业领域。数据脱敏技术的应用目的主要包括两方面:一是以保护敏感数据安全、实现合法合规为主要目的;二是在达到第一目标的前提下,尽可能地保证数据可用性以及可挖掘价值。

在当前大数据时代,多数涉及到个人隐私数据存储使用的领域皆不可避免地需要面对数据安全及合规问题。具体来说,在政务领域,由于政务数据平台往往会掌握身份信息、户籍信息等大量极为敏感的个人信息数据,需要针对数据采集、传输、应用、归档等全生命周期进行数据脱敏并同步实施其他数据安全防护手段;在金融、电信等关键领域,由于电信客户的手机号码、通话记录、网络流量等信息以及金融客户的个人账户信息、交易记录等信息均属于重要敏感信息,面临严格的行业监管要求,使用数据脱敏技术是实现合规的首选;在数据应用最为广泛的互联网领域,大量地使用到了可能会涉及个人隐私的用户行为数据,从避免违规导致的额外成本角度来看,使用敏感数据时进行数据脱敏处理是重要的前提步骤。

(编辑:湘西站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读