【发布时间】:2017-10-07 08:04:09
【问题描述】:
我有一个 spark + jupyter 的 docker 镜像 (https://github.com/zipfian/spark-install)
我有另一个用于 hadoop 的 docker 镜像。 (https://github.com/kiwenlau/hadoop-cluster-docker)
我在 Ubuntu 中运行来自上述 2 个映像的 2 个容器。 对于第一个容器: 我能够成功启动 jupyter 并运行 python 代码:
import pyspark
sc = pyspark.sparkcontext('local[*]')
rdd = sc.parallelize(range(1000))
rdd.takeSample(False,5)
对于第二个容器:
在宿主机Ubuntu OS中,我能够成功进入
- web browser localhost:8088 : 并浏览 Hadoop 所有应用程序
- localhost:50070: 并浏览 HDFS 文件系统。
现在我想从 jupyter(在第一个容器中运行)写入 HDFS 文件系统(在第二个容器中运行)。
所以我添加了附加行
rdd.saveAsTextFile("hdfs:///user/root/input/test")
我得到错误:
HDFS URI,无主机:hdfs:///user/root/input/test
我是否错误地提供了 hdfs 路径?
我的理解是,我应该能够从另一个运行 spark 的容器与一个运行 hdfs 的 docker 容器通信。我错过了什么吗?
感谢您的宝贵时间。
我还没试过 docker compose。
【问题讨论】:
标签: hadoop apache-spark docker hdfs