如何提交 python SnappyData 作业答案

【问题标题】：How to submit a python SnappyData job如何提交 python SnappyData 作业
【发布时间】：2019-05-25 05:27:51
【问题描述】：

SnappyData 文档（docs/programming_guide/using_the_spark_shell_and_spark-submit.md）表明可以向 Spark（主默认端口 7077）提交一个可以使用 SnappyData 表的 python 程序：

$ ./bin/spark-submit --class io.snappydata.examples.AirlineDataSparkApp --master spark://masterhost:7077 --conf spark.snappydata.connection=locatorhost:clientPort $SNAPPY_HOME/examples/jars/quickstart.jar

我的问题：Spark 端口 7077 似乎没有在监听。需要手动配置吗？

（假设：我假设7077端口属于SnappyData自带的Spark，而不是单独的Spark集群。）

【问题讨论】：

您需要使用 /sbin/start-all.sh 启动一个 spark 独立集群 ...这将在端口 7077 上启动 spark master。
那么，您是否需要第二个 Spark 集群来提交并行 python 作业（使用 SnappyData 表）？或者有没有办法启动一个使用 SnappyData 的 spark 节点的 python snappy 作业？

标签： apache-spark snappydata

【解决方案1】：

是的，Snappy 数据服务器 JVM 不能在“内部”运行 Python。但是，您可以使用相同的节点来启动 Spark 主节点和工作节点——它们的重量非常轻。运行与用于运行 SnappyData“数据服务器”的节点并置的工作程序。请注意，作业（例如 Java、scala）是否在数据服务器中运行，它们是否需要类似的资源（CPU、内存）。

【讨论】：