【发布时间】:2020-07-25 23:38:00
【问题描述】:
从 spark 的 document,我知道我可以从文件中的 libsvm-formatted 数据集加载。
但是,我想在远程 spark 集群中运行代码,所以我将 iris 数据集硬编码到我的代码中,并且我想直接从这个 String 对象加载。
但是,在查看 DataFrameReader 对象时,我发现没有支持从 String 直接加载数据集的 API。
【问题讨论】:
-
嗨@calvin,你能检查我的答案吗,如果它适合你,请投票+接受:)
-
嗨@SomeshwarKale,您的回答部分解决了我的问题,但是,我实际上想加载
libsvm-formatted数据集而不是csv-formatted数据集 -
嗨@calvin,如果您启用了文件系统,您可以从字符串 libsvm 创建临时文件并加载与 dataframe-val df = spark.read.format("libsvm") .option( "numFeatures", "780") .load("data/mllib/sample_libsvm_data.txt")
-
@SomeshwarKale 所以没有直接的 API 可以做到这一点,我需要使用一些解决方法,得到它,谢谢 :)
标签: apache-spark apache-spark-mllib apache-spark-ml