【问题标题】:Read csv from hdfs with spark/scala使用 spark/scala 从 hdfs 读取 csv
【发布时间】:2018-11-15 07:22:06
【问题描述】:

我正在使用 spark 2.3.0 和 hadoop 2.9.1 我正在尝试使用 spark 加载位于 hdfs 中的 CSV 文件

scala> val dataframe = spark.read.format("com.databricks.spark.csv").option("header","true").schema(schema).load("hdfs://127.0.0.1:50075/filesHDFS/data.csv")

但我收到以下错误:

2018-11-14 11:47:58 WARN  FileStreamSink:66 - Error while looking for metadata directory.
java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "Desktop-Presario-CQ42-Notebook-PC/127.0.0.1"; destination host is: "localhost":50070;

【问题讨论】:

    标签: scala apache-spark hadoop hdfs


    【解决方案1】:

    不要使用 127.0.0.1,而是使用默认的 FS 名称。您可以在 fs.defaultFS 属性下的 core-site.xml 文件中找到它

    应该可以解决你的问题。

    【讨论】:

      猜你喜欢
      • 2021-06-18
      • 1970-01-01
      • 2015-12-04
      • 1970-01-01
      • 1970-01-01
      • 2017-05-26
      • 1970-01-01
      • 2018-04-26
      • 1970-01-01
      相关资源
      最近更新 更多