从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改

【问题标题】：Row delimiter change while writing a tsv file in adls gen 1 from databrick从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改
【发布时间】：2020-07-25 15:53:33
【问题描述】：

我想将 tsv 文件保存到 adls gen1。使用以下命令保存数据，但将行分隔符写为“\n”（LF）我想写一个行分隔符“\r\n”

df.coalesce(1).write.mode("overwrite").format("csv").options(delimiter="\t",header="true",nullValue= None,lineSep ='\r\n').save(gen1temp)

我有 400 多列和 2M 行，文件大小为 6GB。请帮助优化 soln。

【问题讨论】：

标签： apache-spark pyspark jupyter-notebook azure-functions databricks

【解决方案1】：

支持 CSV 文件的lineSep 选项仅存在于Spark 3.0 中，而在早期版本中不存在，例如2.4，因此它被忽略了。

最初我考虑过以下解决方法 - 将 \r 附加到最后一列：

from pyspark.sql.functions import concat, col, lit

data = spark.range(1, 100).withColumn("abc", col("id")).withColumn("def", col("id"))
cols = map(lambda cn: col(cn), data.schema.fieldNames())
cols[-1] = concat(cols[-1].cast("string"), lit("\r"))
data.select(cols).write.csv("1.csv")

但不幸的是，它不起作用 - 看起来它在将数据写入 CSV 时正在剥离结束空格...

【讨论】：

我面临同样的问题，其中一个要求...使用 spark 2.4，但不知道如何得到这个东西 \r\n 最后