将 csv 导入 pyspark 数据框时出错答案

【问题标题】：Error when importing csv into pyspark dataframe将 csv 导入 pyspark 数据框时出错
【发布时间】：2021-08-23 21:00:25
【问题描述】：

我正在使用 conda 环境通过 ssh/PyCharm 在远程主机上运行 python 代码。
当尝试将 csv 文件导入 PySpark 数据框时，像这样

from pyspark.sql import SparkSession
url = "https://github.com/BigDaMa/COCOA/raw/master/dataset/movie.csv"
self.spark = SparkSession.builder.getOrCreate() 
df = self.spark.read.format("csv").load(url)

我收到以下错误消息：

Traceback (most recent call last):
  File "/home/meike/anaconda3/envs/py3/lib/python3.9/site-packages/pyspark/sql/utils.py", line 111, in deco
    return f(*a, **kw)
  File "/home/meike/anaconda3/envs/py3/lib/python3.9/site-packages/py4j/protocol.py", line 326, in get_return_value
    raise Py4JJavaError(
py4j.protocol.Py4JJavaError: An error occurred while calling o28.load.
: java.lang.UnsupportedOperationException
    at org.apache.hadoop.fs.http.AbstractHttpFileSystem.listStatus(AbstractHttpFileSystem.java:91)
    at org.apache.hadoop.fs.http.HttpsFileSystem.listStatus(HttpsFileSystem.java:23)
    at org.apache.spark.util.HadoopFSUtils$.listLeafFiles(HadoopFSUtils.scala:225)
    at org.apache.spark.util.HadoopFSUtils$.$anonfun$parallelListLeafFilesInternal$1(HadoopFSUtils.scala:95)
    at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:238)
    at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62)
    at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55)
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49)
    at scala.collection.TraversableLike.map(TraversableLike.scala:238)
    at scala.collection.TraversableLike.map$(TraversableLike.scala:231)
    at scala.collection.AbstractTraversable.map(Traversable.scala:108)
    at org.apache.spark.util.HadoopFSUtils$.parallelListLeafFilesInternal(HadoopFSUtils.scala:85)
    at org.apache.spark.util.HadoopFSUtils$.parallelListLeafFiles(HadoopFSUtils.scala:69)
    at org.apache.spark.sql.execution.datasources.InMemoryFileIndex$.bulkListLeafFiles(InMemoryFileIndex.scala:158)
    at org.apache.spark.sql.execution.datasources.InMemoryFileIndex.listLeafFiles(InMemoryFileIndex.scala:131)
    at org.apache.spark.sql.execution.datasources.InMemoryFileIndex.refresh0(InMemoryFileIndex.scala:94)
    at org.apache.spark.sql.execution.datasources.InMemoryFileIndex.<init>(InMemoryFileIndex.scala:66)
    at org.apache.spark.sql.execution.datasources.DataSource.createInMemoryFileIndex(DataSource.scala:581)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:417)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:325)
    at org.apache.spark.sql.DataFrameReader.$anonfun$load$3(DataFrameReader.scala:307)
    at scala.Option.getOrElse(Option.scala:189)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:307)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:239)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.base/java.lang.reflect.Method.invoke(Method.java:566)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.base/java.lang.Thread.run(Thread.java:829)

我已成功将相同的 csv 导入 pandas 数据框，这里没有问题。
我还可以创建一个空数据框并手动填充它。

我在 StackOverflow 上找到了this，但作为评论员之一，我需要能够使用 PySpark 进行调试。我不能简单地使用 spark-submit 在终端中运行代码。

我也尝试过导入 findspark 并添加 MySQL 包，但这并不能解决问题。

有什么想法吗？如果需要更多信息，我很乐意补充！

PS：这些是我收到的一些警告，但它们并没有阻止我的代码运行至今。

Connected to pydev debugger (build 212.4746.96)
WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/home/meike/anaconda3/envs/py3/lib/python3.9/site-packages/pyspark/jars/spark-unsafe_2.12-3.1.2.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
21/08/23 23:07:06 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark´s default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).

PPS：我还设法通过将 csv 复制到与 main.py 相同的目录并“从本地”读取它来导入 csv。但该脚本旨在使用作为输入的 URL 执行。为什么这不起作用？？

【问题讨论】：

标签： python pyspark

【解决方案1】：

您不能将 csv 从 url 直接加载到 pyspark 中。试试这个：

url = "https://github.com/BigDaMa/COCOA/raw/master/dataset/movie.csv"
from pyspark import SparkFiles
spark.sparkContext.addFile(url)
df = spark.read.csv("file://"+SparkFiles.get("movie.csv"), header=True, inferSchema= True)

其他方法是通过 pandas 从 url 读取，然后创建 spark 数据框：

import pandas as pd
df = spark.createDataFrame(pd.read_csv(url)))

【讨论】：

我在我的公寓环境中成功地在 ubuntu 服务器上使用了你的方法。现在我正在使用带有 spark 内核的 AWS EMR Jupiter Notebook 尝试相同的操作，我收到以下错误消息：--- java.io.FileNotFoundException: File file:/mnt/tmp/spark-c9b0fb0d-5f1b-4bf5-930c -1cdab0ec58d1/userFiles-7f5e270a-688c-43c8-8312-121399b4cd15/movie.csv 不存在可能基础文件已更新。您可以通过在 SQL 中运行“REFRESH TABLE tableName”命令或通过重新创建所涉及的数据集/数据帧来显式地使 Spark 中的缓存无效。 --- 有什么想法吗？
可能是权限问题，您没有写入文件夹的写入权限。
这对我不起作用：ibb.co/tJ96QCN