【发布时间】:2022-07-12 00:01:56
【问题描述】:
我非常期待使用 python 来使用 Apache spark 验证我的数据。基本上我想为数据框的每一行添加一个标志 is_valid 。要添加此标志,我需要对行中的每一列应用多项检查。很大的期望是为考虑到整行的列给出结果。有什么方法可以让我通过伟大的期望来实现这一目标?
【问题讨论】:
标签: apache-spark validation great-expectations
我非常期待使用 python 来使用 Apache spark 验证我的数据。基本上我想为数据框的每一行添加一个标志 is_valid 。要添加此标志,我需要对行中的每一列应用多项检查。很大的期望是为考虑到整行的列给出结果。有什么方法可以让我通过伟大的期望来实现这一目标?
【问题讨论】:
标签: apache-spark validation great-expectations
如果您尝试附加到您正在使用 Great Expectations 验证的数据帧,目前这在 Great Expectations 中是不可能直接实现的。您可以在管道中添加一个步骤,该步骤将解析检查点生成的验证结果,然后根据结果附加到您的数据框。
【讨论】: