论文阅读《PrivateLink：Privacy-Preserving Integration and Sharing of Datasets》

论文来源

信息安全期刊：《IEEE Transactions on Information Forensics and Security》

论文概要

关键词

保护隐私的数据共享、数据集成、伪随机函数

提出问题

数据共享越来越普遍，通过数据共享，医疗企业等其它机构可以收集大量的数据，从而获得更准确的数据挖掘结果。但是数据共享过程中也存在着泄露用户隐私的风险，这个问题也一直制约着数据共享。作者认为本质上，类似的问题都属于保护隐私的数据集成(privacy-preserving data integration，PPDI)问题，现有的解决方法有如下缺陷：

需要可信的第三方或安全的硬件
需要在数据共享方之间协商**
导致计算和通信开销过大

解决方案

要想解决PPDI问题，就不得不在数据可用性、数据隐私、计算效率三者间权衡。本文作者提出了一个简单的PrivateLink协议，目的就是在上述三者间实现一个合理的平衡。PrivateLink是一个客户端和服务器之间的交互协议，其结构模型如下。

论文阅读《PrivateLink：Privacy-Preserving Integration and Sharing of Datasets》 — PrivateLink 的结构设计模型

为方便后续的阅读，请先花几秒钟了解一下标识符的概念，据我所知，这个概念来源于k-匿名。

标识符：数据库中一条记录的唯一标识属性，例如一个人的身份证号

在客户端和服务器之间：

每个客户端都有自己的一个待共享的数据库。客户端首先需要对自己数据库中所有记录的标识符进行随机化，对其它属性进行泛化。然后，所有客户端把经过随机化的标识符发给服务器。
服务器收到客户端发来的，已经随机化处理的标识符后，使用一个仅有自己知道的秘密值进一步遮蔽标识符，然后把这个再次处理过的标识符返回给原本的客户端。
原本的客户端收到服务器发来的经过两次处理（第一次处理是自己，第二次处理是服务器）后的标识符后，对这些标识符去随机，若与初始数据不一致，则丢弃该数据。

在各个客户端之间：

各个客户端之间共享随机化和泛化处理后的数据库，可以验证和集成数据库。

协议对安全性的保证来源于：

服务器仅仅知道标识符，并不清楚与标识符对应的该条记录的其它属性，所以无法泄露隐私。
客户端可以验证服务器发来的标识符是否被篡改过。

我的思考

这样的模型中，攻击者也许可以通过其它泛化后的属性，推导出这条记录的标识符，但作者也说了这样的重标识攻击是信息泄露的问题了，不属于本文的研究范围。

在这样的模型中，那个不可信的第三方服务器做的标识符遮蔽有什么意义呢？