【发布时间】:2020-06-01 18:41:46
【问题描述】:
我是大数据验证和处理方面的新手。对datacompy知之甚少,我用它来比较两个数据集(熊猫)。但是我找不到任何可以进行数据验证的来源,即使用 python 对电子邮件、非电子邮件、null、货币和日期/时间格式进行列验证
例如以下示例数据需要验证:
Address
-------
AAA AAA AAA
BBBB B bbbb
CCC CCCCCCC
abc@dbv.com
dews@fggv.uk
ASAA asas dasd
我得到的数据集包含“地址”列下的电子邮件地址,需要验证“地址”列中是否存在电子邮件。 'Emil' 列需要验证,反之亦然。
我更喜欢在结果中返回无效行(类似于 datcompy compare.report,它输出整行不匹配的行)。
我已经用 scala 尝试了 Deequ,如果发现验证错误,验证成功状态。但是,很难找出包含无效数据的确切行。
感谢有人可以为此目的为我提供参考、课程或任何其他工具、语言。首选 python 或 Deequ/scala 上的解决方案。
【问题讨论】:
-
请分享更多关于你迄今为止所尝试的信息。一些输入和输出示例也会有所帮助。
标签: python scala amazon-deequ