大型源数据的 flink 检查点答案

【问题标题】：flink checkpoint for a large source data大型源数据的 flink 检查点
【发布时间】：2020-04-13 04:04:53
【问题描述】：

我正在使用 flink 流应用程序，输入源作为 nfs 文件系统，接收器作为 kafka 生产者。

我正在使用 continousmonitoring 功能来转发不支持并行性的文件拆分和具有并行性的 continousFileOperator。

我们拥有的初始数据是 4TB 数据。对于初始传输，连续监控功能需要很长时间才能准备好状态，但检查点在完成之前一直过期。我已将 checkpointingTimeout 更改为 3 小时，仍然失败。

我能知道什么是检查点状态吗，它与数据的大小有关吗？

我可以知道如何计算州的大小吗？

对于大数据的初始运行是否有更好的方法？

【问题讨论】：

有多少个文件？我认为这更有可能成为瓶颈。
现在我正在测试环境中处理 300 万个文件。prod 中的文件不止这些。有没有一种方法可以在文件直到修改时间转发到 Continuousfileoperator 时强制快照？

【解决方案1】：

我强烈怀疑性能不佳的原因是由 continousmonitoring 函数的单个实例处理的大量文件。

与其尝试使用管道的一个实例来处理所有这些，我会尝试使用许多独立的管道，每个管道都有一个处理一小部分文件的源。这可以在单独的作业中完成，但不一定是这样：您可以拥有一个包含许多源和接收器的作业。

【讨论】：