为大数据定义数据质量规则答案

【问题标题】：Define Data Quality Rules for Big Data为大数据定义数据质量规则
【发布时间】：2020-11-27 07:47:25
【问题描述】：

是否有任何方法可以定义可应用于数据帧的数据质量规则。定义规则的模板应该很容易让任何外行定义，然后我们可以将这些规则转换为 pyspark 代码并在数据上运行它们。

我的思路如下。

ID  ProjectID   RuleID  Attribute1  Value1          Condition1  Attribute2  Value2          Condition2  Type    ModifyAttribute ModificationLogic   CustomUDF
1   1           1       SerialNum   6               EQUAL                                               MODIFY  SerialNum   SUBSTR(serialNum,1,6)   
2   1           2       DriverName  ['A','B','C']   VALUEMATCH  Source      ['D','E','F']   IN          REJECT

如果有任何工具或特定领域的语言来定义相同的，那将有所帮助。如果有任何模板来定义可以跨属性和跨多个表（连接，例如国家/地区查找）应用的规则也是有帮助的。

【问题讨论】：

这可能会有所帮助：github.com/great-expectations/great_expectations

标签： validation pyspark data-quality

【解决方案1】：

很惊讶还没有人回答这个问题。通常，对于这样的用例，我会使用ConfigParser。根据您的架构，您可以定义易于阅读和执行的部分和规则。但这是开发人员会发现比普通用户更容易使用的东西。

现在，对于您的用例来说，这已经不碍事了，因为 python 是一种具有很大灵活性的脚本语言，您可以简单地以您给定的格式创建一个 excel，这将决定您的数据操作流程。我希望这在某种程度上有所帮助。如果您需要更多信息，请告诉我。

【讨论】：

或者，您可以在某个表（hive/HBase）中配置这些规则，然后在执行期间广播这些规则，或者如 Jacob 所述，您可以创建一个配置文件。希望这会有所帮助。
@DivyaanshBajpai Hive 很棒！它有助于解决您在处理文件时会遇到的许多不便，但在这个特定的用例中，他需要一些用户友好的东西。所以这里可能不是一个很好的选择。