【发布时间】:2019-07-16 07:30:43
【问题描述】:
我试图使用 Spark 和 pyspark 读取 .txt 文件,但我得到了我无法理解的错误。我已经正确安装了 py4j,而且我可以毫无问题地读取 csv 文件。
这是我的代码:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()
my_data = spark.read.format("libsvm").load("sample_libsvm_data.txt")
我得到的错误是这样的:
---------------------------------------------------------------------------
Py4JJavaError Traceback (most recent call last)
<ipython-input-4-3347b4cad068> in <module>
----> 1 my_data = spark.read.format("libsvm").load("sample_libsvm_data.txt")
C:\ProgramData\Anaconda3\lib\site-packages\pyspark\sql\readwriter.py in load(self, path, format, schema, **options)
164 self.options(**options)
165 if isinstance(path, basestring):
--> 166 return self._df(self._jreader.load(path))
167 elif path is not None:
168 if type(path) != list:
C:\ProgramData\Anaconda3\lib\site-packages\py4j\java_gateway.py in __call__(self, *args)
1255 answer = self.gateway_client.send_command(command)
1256 return_value = get_return_value(
-> 1257 answer, self.gateway_client, self.target_id, self.name)
1258
1259 for temp_arg in temp_args:
感谢您的帮助。
【问题讨论】:
-
你的 .py 文件和 sample_libsvm_data.txt,绝对路径在哪里?
-
它们在D盘下的同一个文件夹中。
标签: apache-spark pyspark libsvm