【发布时间】:2017-11-09 19:15:55
【问题描述】:
在处理多个数据流和每个数据流的多个运算符时,我试图了解 Flink 的运行时方面。
用例:单个 flink 作业中的 N 个数据流(每个数据流代表 1 个设备 - 具有不同的时间延迟),每个数据流被分成两个流,其中一个进入一堆 CEP 算子, 和一个过程函数。
问题:
- 在运行时,引擎会为每个数据流创建一个线程吗?还是每个操作员一个线程?
- 是否可以在作业开始时在运行时动态创建数据流? (即如果在作业开始时从文件中读取 N 并且需要创建相应的 N 个流)
- 创建大量流 (N ~ 10000) 时,与单个流中的 N 个分区相比,是否会对性能产生任何特定影响?
【问题讨论】:
标签: apache-flink flink-streaming