java.io.IOException：尝试从 IBM Cloud Object Storage 读取 Spark 集群中的 parquet 文件时，无法读取文件 FileStatus 的页脚答案

【问题标题】：java.io.IOException: Could not read footer for file FileStatus when trying to read parquet file from Spark cluster from IBM Cloud Object Storagejava.io.IOException：尝试从 IBM Cloud Object Storage 读取 Spark 集群中的 parquet 文件时，无法读取文件 FileStatus 的页脚
【发布时间】：2019-07-11 03:24:13
【问题描述】：

我在 Kubernetes 上创建了一个包含 3 个工作人员的 Spark 集群，并附加了一个 JupyterHub 部署，以便我可以运行大量查询。

我的 parquet 文件存储在 IBM Cloud Object Storage (COS) 中，当我运行一个简单的代码从 COS 读取时，我收到以下错误：

无法读取页脚：java.io.IOException：无法读取文件 FileStatus{path=file:/path/myfile.parquet/_common_metadata; 的页脚；是目录=假；长度=413；复制=0；块大小=0；修改时间=0；访问时间=0；所有者=;组=;权限=rw-rw-rw-; isSymlink=false} 在 parquet.hadoop.ParquetFileReader.readAllFootersInParallel

我已将所有必需的库添加到驱动程序中 SPARK_HOME 目录的 /jars 目录中。

这是我用来连接的代码：

# Initial Setup - Once
import os

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

spark_session = SparkSession(sc)


credentials_staging_parquet = {
  'bucket_dm':'mybucket1',
  'bucket_eid':'bucket2',
  'secret_key':'XXXXXXXX',
  'iam_url':'https://iam.ng.bluemix.net/oidc/token',
  'api_key':'XXXXXXXX',
  'resource_instance_id':'crn:v1:bluemix:public:cloud-object-storage:global:a/XXXXX:XXXXX::',
  'access_key':'XXXXX',
  'url':'https://s3-api.us-geo.objectstorage.softlayer.net'
}

conf = {
    'fs.cos.service.access.key': credentials_staging_parquet.get('access_key'),
    'fs.cos.service.endpoint': credentials_staging_parquet.get('url'),
    'fs.cos.service.secret.key': credentials_staging_parquet.get('secret_key'),
    'fs.cos.service.iam.endpoint': credentials_staging_parquet.get('iam_url'),
    'fs.cos.service.iam.service.id': credentials_staging_parquet.get('resource_instance_id'),
    'fs.stocator.scheme.list': 'cos',
    'fs.cos.impl': 'com.ibm.stocator.fs.ObjectStoreFileSystem',
    'fs.stocator.cos.impl': 'com.ibm.stocator.fs.cos.COSAPIClient',
    'fs.stocator.cos.scheme': 'cos',
    'fs.cos.client.execution.timeout': '18000000',
    'fs.stocator.glob.bracket.support': 'true'
}

hadoop_conf = sc._jsc.hadoopConfiguration()
for key in conf:
    hadoop_conf.set(key, conf.get(key))

parquet_path = 'store/MY_FILE/*'
cos_url = 'cos://{bucket}.service/{parquet_path}'.format(bucket=credentials_staging_parquet.get('bucket_eid'), parquet_path=parquet_path)

df2 = spark_session.read.parquet(cos_url)

【问题讨论】：

标签： java python apache-spark jupyter jupyterhub

【解决方案1】：

找到我的问题的问题，集群中的所有工作人员都无法使用所需的库。

有两种方法可以解决这个问题：

确保在 spark-submit 命令中添加依赖项，以便将其分发到整个集群，在这种情况下，应在位于 /usr/local/share/jupyter/kernels/pyspark/kernel.json 的 Jupyterhub 上的 kernel.json 文件中完成（假设您创建了该文件）。

或

在您的 SPARK_HOME 上的 /jars 目录中为集群中的每个工作人员和驱动程序添加依赖项（如果您没有这样做）。

我使用了第二种方法。在创建 docker 映像期间，我添加了库，因此当我启动集群时，所有容器都已经具有所需的库。

【讨论】：

【解决方案2】：

尝试重新启动您的系统或服务器，它会在它之后工作。

我遇到了同样的问题。它通常在您升级 Java 版本时发生，但是 spark lib 仍然指向旧的 Java 版本。重新启动服务器/系统即可解决问题。

【讨论】：

【解决方案3】：

我收到了类似的错误，并在 Google 上找到了这篇文章。接下来，我意识到我有一个文件格式问题，其中保存的文件是 Avro，文件阅读器是 Orc。所以...检查您保存的文件格式和阅读器格式是否对齐。

【讨论】：

谢谢你也帮助了我。和你一样的问题。