论文来源
信息安全期刊:《IEEE Transactions on Information Forensics and Security》
下载链接:IEEE Xplore
论文概要
关键词
保护隐私的数据共享、数据集成、伪随机函数
提出问题
数据共享越来越普遍,通过数据共享,医疗企业等其它机构可以收集大量的数据,从而获得更准确的数据挖掘结果。但是数据共享过程中也存在着泄露用户隐私的风险,这个问题也一直制约着数据共享。作者认为本质上,类似的问题都属于保护隐私的数据集成(privacy-preserving data integration,PPDI)问题,现有的解决方法有如下缺陷:
- 需要可信的第三方或安全的硬件
- 需要在数据共享方之间协商**
- 导致计算和通信开销过大
解决方案
要想解决PPDI问题,就不得不在数据可用性、数据隐私、计算效率三者间权衡。本文作者提出了一个简单的PrivateLink协议,目的就是在上述三者间实现一个合理的平衡。PrivateLink是一个客户端和服务器之间的交互协议,其结构模型如下。
为方便后续的阅读,请先花几秒钟了解一下标识符的概念,据我所知,这个概念来源于k-匿名。
标识符:数据库中一条记录的唯一标识属性,例如一个人的身份证号
在客户端和服务器之间:
- 每个客户端都有自己的一个待共享的数据库。 客户端首先需要对自己数据库中所有记录的标识符进行随机化,对其它属性进行泛化。然后,所有客户端把经过随机化的标识符发给服务器。
- 服务器收到客户端发来的,已经随机化处理的标识符后,使用一个仅有自己知道的秘密值进一步遮蔽标识符,然后把这个再次处理过的标识符返回给原本的客户端。
- 原本的客户端收到服务器发来的经过两次处理(第一次处理是自己,第二次处理是服务器)后的标识符后,对这些标识符去随机,若与初始数据不一致,则丢弃该数据。
在各个客户端之间:
- 各个客户端之间共享随机化和泛化处理后的数据库,可以验证和集成数据库。
协议对安全性的保证来源于:
- 服务器仅仅知道标识符,并不清楚与标识符对应的该条记录的其它属性,所以无法泄露隐私。
- 客户端可以验证服务器发来的标识符是否被篡改过。
我的思考
这样的模型中,攻击者也许可以通过其它泛化后的属性,推导出这条记录的标识符,但作者也说了这样的重标识攻击是信息泄露的问题了,不属于本文的研究范围。
在这样的模型中,那个不可信的第三方服务器做的标识符遮蔽有什么意义呢?