Hazelcast Jet 卡在启动 Job 上答案

【问题标题】：Hazelcast Jet stuck on starting JobHazelcast Jet 卡在启动 Job 上
【发布时间】：2019-03-28 18:04:20
【问题描述】：

我在 Hazelcast Jet 中遇到了奇怪的行为。我同时开始了许多工作（约 30 个，有些是在其他之前触发的）。但是，当我的 Hazelcast Jet 作业计数达到 26（幻数？）时，所有处理都卡住了。

在线程库中我看到以下信息：

"hz._hzInstance_1_jet.cached.thread-1" #37 prio=5 os_prio=0 cpu=1093.29ms elapsed=393.62s tid=0x00007f95dc007000 nid=0x6bfc in Object.wait()  [0x00007f95e6af4000]
   java.lang.Thread.State: TIMED_WAITING (on object monitor)
    at java.lang.Object.wait(java.base@11.0.2/Native Method)
    - waiting on <no object reference available>
    at com.hazelcast.spi.impl.AbstractCompletableFuture.get(AbstractCompletableFuture.java:229)
    - waiting to re-lock in wait() <0x00000007864b7040> (a com.hazelcast.internal.util.SimpleCompletableFuture)
    at com.hazelcast.spi.impl.AbstractCompletableFuture.get(AbstractCompletableFuture.java:191)
    at com.hazelcast.spi.impl.operationservice.impl.InvokeOnPartitions.invoke(InvokeOnPartitions.java:88)
    at com.hazelcast.spi.impl.operationservice.impl.OperationServiceImpl.invokeOnAllPartitions(OperationServiceImpl.java:385)
    at com.hazelcast.map.impl.proxy.MapProxySupport.clearInternal(MapProxySupport.java:1016)
    at com.hazelcast.map.impl.proxy.MapProxyImpl.clearInternal(MapProxyImpl.java:109)
    at com.hazelcast.map.impl.proxy.MapProxyImpl.clear(MapProxyImpl.java:698)
    at com.hazelcast.jet.impl.JobRepository.clearSnapshotData(JobRepository.java:464)
    at com.hazelcast.jet.impl.MasterJobContext.tryStartJob(MasterJobContext.java:233)
    at com.hazelcast.jet.impl.JobCoordinationService.tryStartJob(JobCoordinationService.java:776)
    at com.hazelcast.jet.impl.JobCoordinationService.lambda$submitJob$0(JobCoordinationService.java:200)
    at com.hazelcast.jet.impl.JobCoordinationService$$Lambda$634/0x00000008009ce840.run(Unknown Source)

还有：

"hz._hzInstance_1_jet.async.thread-2" #81 prio=5 os_prio=0 cpu=0.00ms elapsed=661.98s tid=0x0000025bb23ef000 nid=0x43bc in Object.wait()  [0x0000005d492fe000]
   java.lang.Thread.State: TIMED_WAITING (on object monitor)
    at java.lang.Object.wait(java.base@11/Native Method)
    - waiting on <no object reference available>
    at com.hazelcast.spi.impl.AbstractCompletableFuture.get(AbstractCompletableFuture.java:229)
    - waiting to re-lock in wait() <0x0000000725600100> (a com.hazelcast.internal.util.SimpleCompletableFuture)
    at com.hazelcast.spi.impl.AbstractCompletableFuture.get(AbstractCompletableFuture.java:191)
    at com.hazelcast.spi.impl.operationservice.impl.InvokeOnPartitions.invoke(InvokeOnPartitions.java:88)
    at com.hazelcast.spi.impl.operationservice.impl.OperationServiceImpl.invokeOnAllPartitions(OperationServiceImpl.java:385)
    at com.hazelcast.map.impl.proxy.MapProxySupport.removeAllInternal(MapProxySupport.java:619)
    at com.hazelcast.map.impl.proxy.MapProxyImpl.removeAll(MapProxyImpl.java:285)
    at com.hazelcast.jet.impl.JobRepository.deleteJob(JobRepository.java:332)
    at com.hazelcast.jet.impl.JobRepository.completeJob(JobRepository.java:316)
    at com.hazelcast.jet.impl.JobCoordinationService.completeJob(JobCoordinationService.java:576)
    at com.hazelcast.jet.impl.MasterJobContext.lambda$finalizeJob$13(MasterJobContext.java:620)
    at com.hazelcast.jet.impl.MasterJobContext$$Lambda$783/0x0000000800b26840.run(Unknown Source)
    at com.hazelcast.jet.impl.MasterJobContext.finalizeJob(MasterJobContext.java:632)
    at com.hazelcast.jet.impl.MasterJobContext.onCompleteExecutionCompleted(MasterJobContext.java:564)
    at com.hazelcast.jet.impl.MasterJobContext.lambda$invokeCompleteExecution$6(MasterJobContext.java:544)
    at com.hazelcast.jet.impl.MasterJobContext$$Lambda$779/0x0000000800b27840.accept(Unknown Source)
    at com.hazelcast.jet.impl.MasterContext.lambda$invokeOnParticipants$0(MasterContext.java:242)
    at com.hazelcast.jet.impl.MasterContext$$Lambda$726/0x0000000800a1c040.accept(Unknown Source)
    at com.hazelcast.jet.impl.util.Util$2.onResponse(Util.java:172)
    at com.hazelcast.spi.impl.AbstractInvocationFuture$1.run(AbstractInvocationFuture.java:256)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(java.base@11/ThreadPoolExecutor.java:1128)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(java.base@11/ThreadPoolExecutor.java:628)
    at java.lang.Thread.run(java.base@11/Thread.java:834)
    at com.hazelcast.util.executor.HazelcastManagedThread.executeRun(HazelcastManagedThread.java:64)
    at com.hazelcast.util.executor.HazelcastManagedThread.run(HazelcastManagedThread.java:80)

我没有任何其他信息如何重现此问题，但是我希望有人知道如何解决此问题，否则我的问题会对其他人有所帮助:)

我的设置： - Java 11 - Hazelcast 3.12 快照 - Hazelcast Jet 3.0 快照（我无法恢复到以前的版本，它会破坏我的逻辑；我需要将在 3.1 中添加的 n:m 连接） - CPU 核心数：4 - 内存：7 GB - Jet 模式：服务器，作为客户端连接到其他集群以插入最终数据。

有没有人遇到过类似的问题？问题是，它不能简单地复制，因此很难为 Hazelcast 团队制造问题。只有线程转储和一般行为可以提示正在发生的事情。

【问题讨论】：

注意：我知道我没有 MVCE，但尽管如此，Hazelcast 团队还是让我将其发布在 StackOverflow 上，因为解决方案可能会帮助其他用户。我想他们会有一些解决方法的想法:)
您能否创建一个 GitHub 问题，因为这显然是一个错误而不是问题？如果可能的话，完整的线程转储也会很棒。这似乎是由于一些死锁，因为在回调中执行了一些阻塞代码。要尝试的一件事是通过更改组属性 PARTITION_OPERATION_THREAD_COUNT 和 GENERIC_OPERATION_THREAD_COUNT 来增加操作和分区线程的数量。
我通过并行提交作业轻松重现了该问题。
@CanGencer 完成：github.com/hazelcast/hazelcast-jet/issues/1339 :)

标签： hazelcast hazelcast-jet

【解决方案1】：

这是 3.0-SNAPSHOT 在开发过程中的一个问题，在 3.0 版本中是 fixed。

【讨论】：