【发布时间】:2015-10-22 17:08:54
【问题描述】:
我有一个 python Spark 程序,它从原始数据创建特征并使用 saveAsPickleFile 方法将它们存储到 Pickle 文件中。我也可以使用saveAsTextFile 方法。
另一个程序是用 Java 编写的,使用 ML 实现分类器。
是否可以将序列化的 pickle 文件读入 Java 中的 RDD?
【问题讨论】:
-
谁能解释一下你为什么给我负面反馈?在我提交这个问题之前,我花了很多时间寻找答案?如果你知道答案,知道我在哪里可以找到,等等。请告诉我。给予负面反馈是没有成效的。我问这个问题是为了得到帮助,不要被放下!
-
我不知道,为什么人们不赞成投票 - 你的问题对我来说似乎是合理的。我不熟悉 python 或 pickle 文件,但如果你使用
saveAsTextFile代替,那么之后在 Java 中阅读它是直接使用sc.textFile("/path/to/your/file") -
我同意@GlennieHellesSindholt。关于 pickle 文件,即使有允许读取 Pickle 对象的框架,您也可以考虑使用 textFiles 代替,因为解决方案更简单。
标签: java python apache-spark rdd