【问题标题】:GCP - CDAP - Dataproc cluster stucks in running stateGCP - CDAP - Dataproc 集群卡在运行状态
【发布时间】:2021-06-22 17:03:28
【问题描述】:

我们有一个由 Cloud Composer DAG 触发的 DataFusion 管道。此管道提供一个临时 DataProc 集群,该集群 在理想情况下 - 在完成任务后终止。

在我们的案例中,有时,并非总是如此,这个短暂的 DataProc 集群会卡在运行状态。集群内部的作业也处于运行状态,最后的日志信息如下:

INFO runtimejob.DataprocJobMain: Invoking initialize() on io.cdap.cdap.runtime.spi.runtimejob.DataprocRuntimeEnvironment with spark2_2.11
INFO runtimejob.DataprocJobMain: Invoking run() on io.cdap.cdap.internal.app.runtime.distributed.runtimejob.DefaultRuntimeJob
INFO runtimejob.DataprocJobMain: Invoking destroy() on io.cdap.cdap.internal.app.runtime.distributed.runtimejob.DefaultRuntimeJob
INFO runtimejob.DataprocJobMain: Runtime job completed.
Exception: java.lang.NoClassDefFoundError thrown from the UncaughtExceptionHandler in thread " STARTING-SendThread(cdap-<our-identifier>-1f11111b-1d11-11eb-b1a1-1a111fb11d11-m.c.<our-gcp-project-name>.internal:41409)"
Exception: java.lang.NoClassDefFoundError thrown from the UncaughtExceptionHandler in thread "threadDeathWatcher-2-1"

在 DataFusion 端,管道标记为成功。 DataFusion日志如下:

Completed DEPROVISION subtask REQUESTING_DELETE for program run program_run: <data_fusion_namespace>.<pipeline_name>.-SNAPSHOT.workflow.DataPipelineWorkflow.<data_proc_id> //this message is repeated many-many times
DEBUG [provisioning-service-4:i.c.c.c.s.Retries@197] - Retries exhausted after 1 failures and 14 ms.

任何想法是什么导致了这个问题?

p.s.:消息中的标识符被替换为随机值

【问题讨论】:

    标签: java apache-spark mapreduce google-cloud-dataproc cdap


    【解决方案1】:

    您运行的是哪个版本的 Datafusion? Dataproc 集群的内存量是多少?有时我们会在 Dataproc 集群内存不足时观察到此问题。我建议增加内存量。

    【讨论】:

    • 我们在集群中有 1 个 master 和 5 个 worker。它们都有 8 个 CPU 和 30GB RAM。 Datafusion 中的记录数约为 10 亿条。我上面描述的错误是不确定的,有时会发生有时不会。数据融合版本为 6.2.0。
    • CDF 版本 6.2.0 存在问题。可以将实例升级到补丁版本 6.2.3 吗?
    • 感谢您提供的信息。是的,我们一定会这样做。话虽如此,我将您的回复标记为已接受。再次感谢您。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-12
    • 1970-01-01
    • 2017-07-25
    • 2021-03-10
    • 2020-05-14
    相关资源
    最近更新 更多