【问题标题】:Row delimiter change while writing a tsv file in adls gen 1 from databrick从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改
【发布时间】:2020-07-25 15:53:33
【问题描述】:

我想将 tsv 文件保存到 adls gen1。使用以下命令保存数据,但将行分隔符写为“\n”(LF)我想写一个行分隔符“\r\n”

df.coalesce(1).write.mode("overwrite").format("csv").options(delimiter="\t",header="true",nullValue= None,lineSep ='\r\n').save(gen1temp)

我有 400 多列和 2M 行,文件大小为 6GB。 请帮助优化 soln。

【问题讨论】:

    标签: apache-spark pyspark jupyter-notebook azure-functions databricks


    【解决方案1】:

    支持 CSV 文件的lineSep 选项仅存在于Spark 3.0 中,而在早期版本中不存在,例如2.4,因此它被忽略了。

    最初我考虑过以下解决方法 - 将 \r 附加到最后一列:

    from pyspark.sql.functions import concat, col, lit
    
    data = spark.range(1, 100).withColumn("abc", col("id")).withColumn("def", col("id"))
    cols = map(lambda cn: col(cn), data.schema.fieldNames())
    cols[-1] = concat(cols[-1].cast("string"), lit("\r"))
    data.select(cols).write.csv("1.csv")
    

    但不幸的是,它不起作用 - 看起来它在将数据写入 CSV 时正在剥离结束空格...

    【讨论】:

    • 我面临同样的问题,其中一个要求...使用 spark 2.4,但不知道如何得到这个东西 \r\n 最后
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-02-23
    • 2016-01-25
    • 1970-01-01
    • 2021-12-27
    • 2021-05-14
    • 1970-01-01
    • 2023-03-10
    相关资源
    最近更新 更多