sparklyr spark_read_parquet 来自 s3 错误答案

【问题标题】：sparklyr spark_read_parquet from s3 errorsparklyr spark_read_parquet 来自 s3 错误
【发布时间】：2019-08-18 17:07:48
【问题描述】：

当我从 sparklyr 上下文中读取 s3 上的 parquet 文件时，如下所示：

{spark_read_parquet(sc, name = "parquet_test", path = "s3a://<path-to-file>")}

它给我一个错误是：

原因：java.io.IOException：无法读取文件的页脚：FileStatus{path=s3a: .....

我能够通过使用 read.parquet() 函数在 sparkR 会话中读取 parquet 文件。所以sparkR和sparklyr在spark上下文配置上肯定存在一些差异。

对这个问题有什么建议吗？谢谢。

【问题讨论】：

标签： r sparklyr

【解决方案1】：

在yarn-client 模式下，您使用的文件架构s3 不正确。您需要使用s3://<path-to-file>

【讨论】：