【问题标题】:Input path does not exist error apache spark输入路径不存在错误apache spark
【发布时间】:2017-01-12 19:39:54
【问题描述】:

我是学习 spark 的初学者。我正在关注一本书“Holden Karau、Andy Konwinski、Patrick Wendell 和 Matei Zaharia 的学习火花”。

本书给出了一个python代码示例

>>> lines = sc.textFile("README.md") # Create an RDD called lines
>>> lines.count() # Count the number of items in this RDD
127
>>> lines.first() # First item in this RDD, i.e. first line of README.md
u'# Apache Spark'

我想知道文件“README.md”在哪里?因为书中没有给出任何信息。此外,每当我尝试运行此代码时,都会出现错误 "输入路径不存在:hdfs://quickstart.cloudera:8020/user/cloudera/README.md"

我在 Codera 虚拟机上运行此代码,以便在 vmware 工作站上运行 Spark。

【问题讨论】:

  • 您需要提供正确的文件路径..!该示例适用于您已下载 Spark 代码并自行构建的情况,然后您会在同一文件夹中找到 README。所以你可以做的是在那里放置一个带有一些数据的文本文件,然后提供你提供的路径!文件应该存在于路径中:hdfs://quickstart.cloudera:8020/user/cloudera/filename
  • @ShivanshSrivastava 感谢您的回复。你能告诉我我可以访问路径:hdfs://quickstart.cloudera:8020/user/cloudera/filename 来放置文件吗?

标签: python hadoop apache-spark pyspark


【解决方案1】:

由于我使用 cloudera 虚拟机进行 spark,因此文件 README.md 不存在于路径“hdfs://quickstart.cloudera:8020/user/cloudera/README.md”中。现在,我用过

lines = sc.textFile("file:///home/cloudera/Desktop/README.md")

Spark 将从本地文件系统访问路径“/home/cloudera/Desktop/README.md”中的文件。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多