【问题标题】:Great Expectations taking long time远大的期望需要很长时间
【发布时间】:2021-09-12 14:31:48
【问题描述】:

假设我们有一个大约 17,000 行的 PySpark 数据框,并且想要检查列“a”是否不为空。以下代码需要多长时间才能运行:

import great_expectations as ge
# results_all is a list of PySpark Data Frames and its length is currently 1
for df in results_all:
    dq = ge.dataset.SparkDFDataset(df)
    r1 = dq.expect_column_values_to_not_be_null('a')
    print(r1)

到目前为止,它已经花费了大约 14 个小时,并且仍然作为胶水作业运行。这是预期的吗?

【问题讨论】:

    标签: python performance pyspark aws-glue great-expectations


    【解决方案1】:

    如果您可以共享作业日志,将会很有帮助。

    可能有多种原因:

    1. 我假设您在 GLUE 代码中使用了外部库,因此可能存在与库安装相关的问题。
    2. 您如何派生列表 result_all [数据帧列表],是从外部数据源填充的数据帧,由于防火墙/VPC 限制,可能无法处理

    【讨论】:

      猜你喜欢
      • 2015-09-27
      • 2016-08-13
      • 1970-01-01
      • 2012-04-15
      • 2013-09-07
      • 2020-08-26
      • 2014-10-09
      • 2012-11-26
      • 2019-12-27
      相关资源
      最近更新 更多