【问题标题】:Understanding outputs from the Apache Flink dashboard了解 Apache Flink 仪表板的输出
【发布时间】:2019-05-19 11:29:26
【问题描述】:

我试图了解 Apache Flink 仪表板显示的“接收/发送的字节数”是什么意思。在某些情况下,CSV 文件托管在 HDFS 服务器上,我将结果写入我机器上本地的 TXT 文件。 Flink 也在我的机器上本地运行。考虑到这一点,“发送的字节数”似乎是指“从 HDFS 服务器发送到我的机器的字节数”,而“接收的字节数”似乎是指“从我的机器发送到 HDFS 服务器的字节数”。 这是正确的解释吗?

我也对时间线显示的重叠任务感到有些困惑。在前两个数据集的过滤完成之前开始连接似乎很奇怪。 这是预期的行为吗?如果是,为什么?

以下是我对正在发生的事情的一些上下文的执行计划。

【问题讨论】:

    标签: apache-flink


    【解决方案1】:

    Flink operator 的“Bytes received”是指传入的数据,“bytes sent”是指传出的数据。换句话说,你把它倒过来了:数据源接收的字节是从 HDFS 接收的字节,而从接收器发送的字节是写入 TXT 文件的字节。

    然而,正如in this answer 所解释的那样,Flink 不提供源的接收字节数统计信息或接收器发送的字节数,这就是这些数字为零的原因。顺便说一句,我们计划在未来的版本中对此进行改进。

    至于数据流管道中的重叠、并发计算——嗯,是的,这是 Flink 设计的一个重要特征,它可以支持连续的、流式数据流。执行批处理工作负载时,这不是必需的,但不会造成伤害。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-20
      • 1970-01-01
      • 2021-01-10
      • 2017-05-17
      • 1970-01-01
      相关资源
      最近更新 更多