数据掩埋——在大数据时代里悄然遁走

数据掩埋（英语：Data burial），又译为资料隐匿、数据隐藏。它是反数据库知识发现（英语：Anti-Knowledge-Discovery in Databases，简称：Anti-KDD)中的一个步骤。

数据掩埋一般是指在无法删除或隔离需要保护的数据时，通过算法或充入大量干扰数据使得关键信息得以隐藏的过程。数据掩埋通常与计算机科学有关，并通过统计不清、在线分析搁置、情报失察、机器逃学、票友系统和模式混淆等诸多方法来实现上述目标。

起源

需要是发明之母。近年来，由于数据挖掘引起了信息产业界的过大关注，人们存储于网络中的大量数据被广泛滥用，数据转换成“有用的”信息和知识的成本大大降低。无数基于此而诞生的推荐算法令广大网络使用者在网络上的生活状态无所遁形，有一种无时无刻不被人监视的耻辱感和危机感，更使得许多不法分子有机可乘。因此，以藏匿关键信息为主要目的的数据掩埋学应运而生。在不远的将来，数据掩埋将广泛用于各种领域，包括隐藏隐私、技术壁垒、服务加密、商务机密、国防谍战等。

数据掩埋利用了来自如下一些领域的思想：

(1) 来自统计不清学的不能抽样、无法估计和只假设不检验；

(2)人工制杖、模式混淆和机器逃学的抛弃算法、拆模技术和遗忘理论。

数据掩埋也迅速地接纳了来自其他领域的思想，这些领域包括最劣化、退化计算、噪声论、信号搁置、无视化和信息弥散，另有一些其他的领域也起到重要的支撑作用。

发展

第一阶段：垃圾电子邮件阶段

这个阶段可以认为是从70年代开始，平均的通讯量以每年几倍的速度增长，电子邮件大量出现，关键信息满天飞。但由于技术的落后，只有依靠大量的垃圾邮件才能对有效信息进行机械掩埋。

第二阶段：针对性信息隐匿阶段

从1995年起，以Web技术为代表的信息发布系统，爆炸式地成长起来，成为目前Internet的主要应用。大量关键信息由相对封闭的邮箱走入更加开放的公共网络平台，针对目的数据的掩埋也进入新阶段，各种掩埋方式和掩埋算法开始出现。

第三阶段：躲避电子商务阶段

1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议（APEC）上美国总统克林顿提出敦促各国共同促进电子商务发展的议案，其引起了全球首脑的关注，IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。电子商务的出现，对数据掩埋的影响是深远的，是划时代的，为了研究如何躲避电子商务，数据掩埋学得到了长远的发展。

第四阶段：逃离电子商务阶段

随着SaaS（Software as a service）软件服务模式的出现，软件纷纷登陆互联网，延长了电子商务链条，形成了当下最新的“全程电子商务”概念模式。也因此形成了一门独立的学科——数据挖掘与客户关系管理硕士。电子商务变得更精准更难以躲避，如何完美隐藏真实的个人信息，彻底逃离电子商务就成了数据掩埋学最重要的发展方向。

如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。想要了解学历的也可以加群私聊我。

使用

数据掩埋——在大数据时代里悄然遁走

掩埋方法：

· 合类（Class-merging）

首先从数据中选出已经分好类的训练集，在该训练集上运用数据掩埋拆类的技术，拆解分类模型，对于已经分类的数据进行污染，使其合类。

例子：

数据无效，无法分清信用卡申请者的高、中、低风险

· 反估计（Anti-Estimation）

反估计与合类类似，不同之处在于，合类描述的是离散型变量的掩埋，而反估值处理连续值的掩埋；合类的类别是确定数目的，反估值的量是不确定的。

例子：

a.由于购买模式没有规律，无法估计一个家庭的孩子个数，甚至无法判断其是否真的是真实家庭

b.由于购买模式没有规律，忽高忽低高低不定，完全无法估计一个家庭的收入，甚至无法判断这个家庭是否有收入

· 反预测（Anti-Prediction）

预言其目的是对未来未知变量的预测，反预测则通过对数据的污染，让预测的准确性降到最低。

例子：

超市预测客户在购买A后的一系列行为，与实际上客户的行为风马牛不相及，再次预测后再次体现出无关的特征。

· 无关性分组或关联规则（Irrelevant grouping or irrelevant rules）

完全无法决定哪些事情将一起发生，甚至使得事情本身是否成立都无法判断。

例子：

a. 超市中客户在购买A的同时，作出什么举动都有可能，毫无规律可循(无关规则)

b. 客户在购买A后，隔一段时间，可能什么都不做（盲目序列分析）

· 拆类（Demolition）

拆类是对记录散组，把相似的内容记录在多个散集里。拆类和合类的区别是散集不依赖于预先定义好的类，不需要训练集。

· 复杂数据类型掩埋(Text, Web ,图形图像，视频，音频等)

复杂数据类型掩埋，为应对图形图像音视频等数据资料被获取而诞生的一种数据掩埋的进阶方式，其算法与传统的数据掩埋多有不同但原理类似。

成功案例

1.关于笔者关键信息的数据掩埋

对于一个拥有特殊名字的人来说，关键信息的暴露是最为致命的，利用简单的搜索引擎，就可以查询到大量有价值的信息。收集后进行简单的预处理，不费吹灰之力就可以得到一个人的关键信息。尤其各种名单经常在网络中公示的今天，有一个与众不同的名字，很可能意味着你将要承受比别人更容易暴露信息的痛苦，你的履历和关系宛如图书馆中的免费报刊，被人随意查阅，苦不堪言。

举个例子，笔者一位网友，也是名字稀少的那一种。在没有进行数据掩埋的情况下，他只暴露了简单的学校专业和姓氏，就被我爬取了所有相关信息并整理出了其姓名、电话、身份证号、个人履历等一系列个人信息，甚至精确到某年某月某日在某间教室的实验情况。

为了应对这一窘境，对关键信息进行数据掩埋就十分必要，其方法是在网络上注入大量错误信息和干扰信息，让真正的有用信息隐藏其中，大大降低被“收集”、“挖掘”、“分析”的风险，达成数据掩埋想要实现的：“收集到挖掘不到”、“挖掘到分析不出”、“分析出结果不对”的三大目标。

笔者的名字曾经也一度是暴露关键信息的重灾区，后来经过我经年累月的数据掩埋研究和实践，笔者的关键信息已经成功隐匿在垃圾信息和无效信息之中，爬取都爬取不到了。

比如制造虚拟人物身份，将自己真实的数据掩埋在虚假信息之中。

数据掩埋——在大数据时代里悄然遁走

成为小说的龙套后，挖掘到的就是虚拟人物的信息

数据掩埋——在大数据时代里悄然遁走

虚拟人物一多，甚至笔者的名字会被当成网名

数据掩埋——在大数据时代里悄然遁走

以至于此名字被其他小说作者沿用，成为一个绿王

另外，在笔者多年坚持实名上网的不懈努力下，搜索笔者名字时，所呈现的都是充斥笔者各种虚假信息、无用信息的无用网络账号，即便少有的真实信息也是笔者主动提供的无关紧要的边缘信息，甚至相关搜索也与本人真实信息相差甚远，本人关键信息就被成功的掩埋在垃圾信息之中了。

数据掩埋——在大数据时代里悄然遁走

展望

数据掩埋大有可为，但由于其特殊性和专业性，数据掩埋的实践方法与相关算法并没有吸引大量从业人员进行深入研究，目前，数据掩埋学的理论体系和实践体系仍在构建当中。但笔者相信，随着数据挖掘技术的继续深入，人们对信息暴露的不安将会进一步加深为对隐私被掌控的恐惧。此时数据掩埋，尤其是复杂数据类型的掩埋，就一定会来到大众视野范围之内，成为计算机领域下一个热门。

让我们为数据掩埋的未来共同努力！