【发布时间】:2015-10-01 10:33:40
【问题描述】:
我正在为我的学术兴趣准备一个数据集。原始数据集包含来自交易的敏感信息,例如Credit card no、Customer email、client ip、origin country 等。我必须在这些敏感信息离开我的原始数据源并将它们存储以供我分析之前对其进行模糊处理算法。数据中的某些字段可以是分类的,并且不难混淆。问题在于非分类数据字段,我应该如何最好地混淆它们以使我的数据的基本统计特征保持不变,但使其不可能(至少在数学上很难)恢复为原始数据。
编辑:我使用 Java 作为前端来准备数据。然后,准备好的数据将由 Python 处理以进行机器学习。
编辑 2: 解释我的场景,作为 cmets 的后续行动。我有如下数据字段:
'CustomerEmail', 'OriginCountry', 'PaymentCurrency', 'CustomerContactEmail',
'CustomerIp', 'AccountHolderName', 'PaymentAmount', 'Network',
'AccountHolderName', 'CustomerAccountNumber', 'AccountExpiryMonth',
'AccountExpiryYear'
我必须对每个字段(数据样本)中存在的数据进行模糊处理。我计划将这些字段视为特征(使用经过混淆的数据),并针对二进制类标签(我的训练和测试样本使用该标签)训练我的模型。
【问题讨论】:
-
我们可以知道您打算使用什么语言/包吗?关于如何处理信用卡号、IP 地址和电子邮件,我有很多想法。
-
@TimBiegeleisen 感谢您的有用提示。为我的问题添加了信息。
-
为了分析新的、未知的数据 - 识别过程,您需要将数据转换为用于教授系统的形式。这种转换可以很容易地恢复工程,特别是如果您只使用 Python 或 Java。
标签: machine-learning obfuscation