【发布时间】:2018-12-14 03:11:22
【问题描述】:
我正在使用 spark_write_csv 函数将 spark 数据帧作为 csv 文件写入本地文件系统。在输出目录中,每个零件文件都有一个 .crc 文件。
我正在寻找避免生成这些 .crc 文件的 Hadoop/Spark 的任何功能或属性。
flights_tbl<-copy_to(sc,flights,"flights")
spark_write_csv(flights_tbl, path="xxx" , mode = "overwrite")
这是我得到的输出:
.part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000.csv.crc
part-00000-365d53be-1946-441a-8e25-84cb009f2f45-c000
【问题讨论】:
-
.crc 文件更有可能与输出存储系统相关,而不是与 Hadoop/Spark 设置相关。这是一个简单的测试。在本地运行spark并将一个简单的DataFrame分别保存到本地存储和S3,你会看到本地输出文件夹中有.crc文件,而S3输出文件夹中没有.crc文件。这两个案例使用了本地系统相同的 Hadoop/Spark 设置。