【发布时间】:2016-04-21 05:23:46
【问题描述】:
我有一个在 Cloudera VM 上运行的 SPARK 项目。在我的项目中,我从 parquet 文件加载数据,然后处理这些数据。一切正常,但问题是我需要在学校集群上运行这个项目,但是在这部分代码读取镶木地板文件时遇到问题:
DataFrame schemaRDF = sqlContext.parquetFile("/var/tmp/graphs/sib200.parquet");
我收到以下错误:
无法读取页脚:java.io.IOException:无法读取页脚 文件 FileStatus{path=file:/var/tmp/graphs/sib200.parquet/_common_metadata; 是目录=假;长度=413;复制=0;块大小=0; 修改时间=0;访问时间=0;所有者=;组=; 权限=rw-rw-rw-; isSymlink=false} 在 parquet.hadoop.ParquetFileReader.readAllFootersInParallel(ParquetFileReader.java:248) 在 org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$$anonfun$28.apply(ParquetRelation.scala:750)
根据网上搜索,应该是parquet版本的问题。
我想从您那里告诉我如何在计算机中找到已安装的镶木地板版本,以检查两者是否具有相同的版本。或者另外,如果你知道这个错误的确切解决方案也是完美的!
【问题讨论】:
-
嗨 Lavdërim,你解决了吗?
-
如果是其他格式,比如
.csv,您应该在阅读时指定format="com.databricks.spark.csv"。
标签: java hadoop io apache-spark parquet