【发布时间】:2017-01-12 19:39:54
【问题描述】:
我是学习 spark 的初学者。我正在关注一本书“Holden Karau、Andy Konwinski、Patrick Wendell 和 Matei Zaharia 的学习火花”。
本书给出了一个python代码示例
>>> lines = sc.textFile("README.md") # Create an RDD called lines
>>> lines.count() # Count the number of items in this RDD
127
>>> lines.first() # First item in this RDD, i.e. first line of README.md
u'# Apache Spark'
我想知道文件“README.md”在哪里?因为书中没有给出任何信息。此外,每当我尝试运行此代码时,都会出现错误 "输入路径不存在:hdfs://quickstart.cloudera:8020/user/cloudera/README.md"
我在 Codera 虚拟机上运行此代码,以便在 vmware 工作站上运行 Spark。
【问题讨论】:
-
您需要提供正确的文件路径..!该示例适用于您已下载 Spark 代码并自行构建的情况,然后您会在同一文件夹中找到 README。所以你可以做的是在那里放置一个带有一些数据的文本文件,然后提供你提供的路径!文件应该存在于路径中:hdfs://quickstart.cloudera:8020/user/cloudera/filename
-
@ShivanshSrivastava 感谢您的回复。你能告诉我我可以访问路径:hdfs://quickstart.cloudera:8020/user/cloudera/filename 来放置文件吗?
标签: python hadoop apache-spark pyspark