【发布时间】:2020-06-02 04:47:53
【问题描述】:
我正在尝试将过滤后的数据帧保存回同一个源文件。
我写了下面的代码来将目录中每个文件的内容转换为单独的Dataframe,过滤它并将其保存回同一个文件
rdd = sparkSession.sparkContext.wholeTextFiles("/content/sample_data/test_data")
# collect the RDD to a list
list_elements = rdd.collect()
for element in list_elements:
path, data = element
df = spark.read.json(spark.sparkContext.parallelize([data]))
df = df.filter('d != 721')
df.write.save(path, format="json", mode="overwrite")
我原以为它会用更新的数据覆盖文件,但它正在使用文件名创建一个文件夹并创建以下结构和部分文件:
如何将每个更新的数据框保存回同一个源文件 (.txt)? 提前致谢。
【问题讨论】:
标签: apache-spark pyspark