【问题标题】:Requesting an advice on big data validation请求有关大数据验证的建议
【发布时间】:2020-06-01 18:41:46
【问题描述】:

我是大数据验证和处理方面的新手。对datacompy知之甚少,我用它来比较两个数据集(熊猫)。但是我找不到任何可以进行数据验证的来源,即使用 python 对电子邮件、非电子邮件、null、货币和日期/时间格式进行列验证

例如以下示例数据需要验证:

Address
-------
AAA AAA AAA
BBBB B bbbb
CCC CCCCCCC
abc@dbv.com
dews@fggv.uk
ASAA asas dasd

我得到的数据集包含“地址”列下的电子邮件地址,需要验证“地址”列中是否存在电子邮件。 'Emil' 列需要验证,反之亦然。

我更喜欢在结果中返回无效行(类似于 datcompy compare.report,它输出整行不匹配的行)。

我已经用 scala 尝试了 Deequ,如果发现验证错误,验证成功状态。但是,很难找出包含无效数据的确切行。

感谢有人可以为此目的为我提供参考、课程或任何其他工具、语言。首选 python 或 Deequ/scala 上的解决方案。

【问题讨论】:

  • 请分享更多关于你迄今为止所尝试的信息。一些输入和输出示例也会有所帮助。

标签: python scala amazon-deequ


【解决方案1】:

熊猫给了我如下解决方案

data = pd.read_csv("data.csv", sep='\t')
x = data[data['Email'].str.match(r'(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)')]

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-12-28
    相关资源
    最近更新 更多