第2章 隐私泄露风险评估与度量方法

“不能度量,就无法控制,也就无法管理。”

——[美国]H.詹姆斯·哈林顿

 

在大数据环境下,个人隐私的保护是数据权的重要组成部分。在大数据时代,人们在利用大数据的分析所带来的便利之处时,也不得不面临它所带来的个人数据的滥用、误用等问题所导致的个人隐私受到侵犯的问题。个人数据的泄露导致各种广告电话、诈骗短信接踵而至,不仅给个人生活的安宁和名誉带来了侵扰,而且还给个人带来经济上的损失等问题。因此,数据在开放共享中迫切寻求数据可用性与隐私泄露之间的平衡,要解决这个问题,隐私风险分析评估不失为一种可行的解决方案。风险评估是对风险事件给人们生活、财产、生命等各方面造成的影响和损失进行定性或定量的评价。只有建立其科学的隐私泄露风险评估机制,才能有效地防止大数据环境下隐私泄露和恶意侵犯,并能促进个人数据的正确利用。

隐私泄露风险评估是指依据法律和政策的规定,对组织机构所搜集、存储、管理、利用、开放的数据是否对隐私产生影响所进行的全生命周期的、系统的评估过程和结果。该概念起源于20世纪90年代,在1995年欧盟颁布的《数据保护指令》中指出:在对数据是否涉及隐私的监控中,监控机构有权利在数据处理之前提出建议,赋予该机构前端干预的权利。同时,在该指令的第20条中也指出:在具体操作之前就需要对数据主体的权利和自由的范围进行风险分析。可以说,从隐私泄露风险评估的概念提出至今,已经有30多年的时间。而随着大数据时代的来临,大规模的个人数据和隐私的泄露会危及公共利益和公共安全,因此,隐私泄露风险的评估成为一种法规和强制性执行的政策。隐私泄露风险评估的核心是风险度量问题,通过对隐私风险的量化与态势评估,可以发现隐私泄露的主要因素、所处状态以及发展趋势,避免隐私泄露所带来的困扰。另外,隐私泄露风险评估是以结果为导向、基于过程的评估,需要将其嵌入到数据生产、管理、利用的每一个环节当中,对数据管理全生命周期内的隐私泄露风险进行合理度量,以确保数据的使用者和管理者有意识地把个人隐私的保护纳入到数据全生命周期的管理当中,并对评估结果提出建设性的意见和对策,以防患于未然。

传统的隐私泄露风险评估方法主要是基于概率的量化方法,评估过程中多数方法依赖于主观概率判断,且风险评估并不考虑隐私的关联以及对手的行为策略等因素,所以评估结果往往也只是一个主观的判断值,而对于大数据环境下的隐私泄露情形,传统的风险评估方法存在弊端。受限于底层设备和技术手段,大数据在产生、采集、传输、存储、预处理等过程中可能发生丢失、偏差、失步等问题,使得大数据质量下降,导致原始数据信息的不确定性。依据这样的大数据源得到的隐私风险评价结果必然存在不确定性。大数据的快速流转和动态更新要求隐私风险态势评估过程随之动态变化,加上数据发布环境的复杂性、数据之间的关联性等诸多不确定性因素,使得定量计算隐私风险发生的概率及其发展变化趋势变得困难,因此,开展数据全生命周期的隐私度量评估方法研究成为当前的研究热点问题。