【发布时间】:2015-08-27 22:15:06
【问题描述】:
我刚开始使用 Spark,并且在任务的概念上苦苦挣扎。
谁能帮我理解什么时候没有在驱动程序中运行一个动作(比如reduce)。
来自 spark 教程,
"使用函数 func 聚合数据集的元素( 接受两个参数并返回一个)。函数应该是 交换和结合,以便它可以正确计算 平行线。 "
我目前正在试验一个应用程序,它读取“n”个文件上的目录并计算字数。
在 Web UI 中,任务数等于文件数。并且所有reduce函数都发生在驱动节点上。
你能告诉我reduce函数不会在驱动程序上执行的场景吗?任务总是包含“转换+动作”还是只包含“转换”
【问题讨论】:
-
如何提交要执行的作业?
-
它是一个集群设置,我正在通过 master 提交作业。
-
不,从字面上看,您是如何提交的?你的 spark-submit 命令是什么
-
/opt/spark/spark-1.3.1/bin/spark-submit --class sampleApp.CoreNLP --executor-memory 17G --master spark://archlab1:7077 --deploy-模式集群 hdfs://10.18.107.136:9000/sampleApp_bp1/target/sampleApp-0.0.1-SNAPSHOT.jar
-
谢谢,通常 OP 不设置主人。
标签: mapreduce apache-spark bigdata