【发布时间】:2016-06-07 02:34:30
【问题描述】:
我在 Python 中有一个字数统计,我想在 Spark 上运行多个文本文件并获得一个输出文件,因此所有文件中的字数都被计算在内。我尝试了一些解决方案,例如找到 here 和 here 的解决方案,但它仍然提供与输入文件数量相同数量的输出文件。
rdd = sc.textFile("file:///path/*.txt")
input = sc.textFile(join(rdd))
或
rdd = sc.textFile("file:///path/f0.txt,file:///path/f1.txt,...")
rdds = Seq(rdd)
input = sc.textFile(','.join(rdds))
或
rdd = sc.textFile("file:///path/*.txt")
input = sc.union(rdd)
不工作。任何人都可以提出一个解决方案,如何将几个输入文本文件制作成一个 RDD?
提前谢谢...
【问题讨论】:
-
你能解释一下“不工作”是什么意思吗?
-
和上面几行意思一样——程序返回的输出文件个数和输入文件的个数一样。
标签: python hadoop apache-spark mapreduce pyspark