【问题标题】:Define Data Quality Rules for Big Data为大数据定义数据质量规则
【发布时间】:2020-11-27 07:47:25
【问题描述】:

是否有任何方法可以定义可应用于数据帧的数据质量规则。 定义规则的模板应该很容易让任何外行定义,然后我们可以将这些规则转换为 pyspark 代码并在数据上运行它们。

我的思路如下。

ID  ProjectID   RuleID  Attribute1  Value1          Condition1  Attribute2  Value2          Condition2  Type    ModifyAttribute ModificationLogic   CustomUDF
1   1           1       SerialNum   6               EQUAL                                               MODIFY  SerialNum   SUBSTR(serialNum,1,6)   
2   1           2       DriverName  ['A','B','C']   VALUEMATCH  Source      ['D','E','F']   IN          REJECT  

如果有任何工具或特定领域的语言来定义相同的,那将有所帮助。 如果有任何模板来定义可以跨属性和跨多个表(连接,例如国家/地区查找)应用的规则也是有帮助的。

【问题讨论】:

标签: validation pyspark data-quality


【解决方案1】:

很惊讶还没有人回答这个问题。通常,对于这样的用例,我会使用ConfigParser。根据您的架构,您可以定义易于阅读和执行的部分和规则。但这是开发人员会发现比普通用户更容易使用的东西。

现在,对于您的用例来说,这已经不碍事了,因为 python 是一种具有很大灵活性的脚本语言,您可以简单地以您给定的格式创建一个 excel,这将决定您的数据操作流程。我希望这在某种程度上有所帮助。如果您需要更多信息,请告诉我。

【讨论】:

  • 或者,您可以在某个表(hive/HBase)中配置这些规则,然后在执行期间广播这些规则,或者如 Jacob 所述,您可以创建一个配置文件。希望这会有所帮助。
  • @DivyaanshBajpai Hive 很棒!它有助于解决您在处理文件时会遇到的许多不便,但在这个特定的用例中,他需要一些用户友好的东西。所以这里可能不是一个很好的选择。
猜你喜欢
  • 1970-01-01
  • 2011-07-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-05-28
  • 1970-01-01
  • 1970-01-01
  • 2018-09-03
相关资源
最近更新 更多