【发布时间】:2017-12-07 16:47:46
【问题描述】:
即使在完成教程之后,我也对架构不是很清楚。我们如何在分布式环境中扩展流集?比方说,我们的输入数据速度从源头开始增加,那么如何确保 SDC 不会出现性能问题?将运行多少个守护进程?是 Master Worker 架构还是 P2P 架构?
如果在多台机器上运行多个守护进程(例如,YARN 中的一个 sdc 和一个 NodeManager),那么它将如何显示数据的集中视图,即总记录数等?
另外请告诉我 Dataflow 性能管理器的架构。此产品中包含哪些所有守护程序?
【问题讨论】:
-
您能否进一步说明有关守护进程的担忧/问题,以及您的意思?你是在说deamon threads吗?如果是这样,您是否对守护线程有特别的担忧?在 Java 中,它们的行为几乎与普通线程 w.r.t 相同。资源消耗等,这就是我想知道的原因。
标签: cloudera-quickstart-vm streamsets