【问题标题】:How to convert Parquet file to Delta file如何将 Parquet 文件转换为 Delta 文件
【发布时间】:2022-01-17 12:49:25
【问题描述】:

我正在尝试将 parquet 文件转换为同一目录中的 delta 文件。

当我更改目录时,文件被创建,但是当我尝试在同一目录中创建增量文件时,它不起作用。

创建的日志仅包括提交。

{"commitInfo":{"timestamp":1639462569886,"userId":"1873721116118433","userName":"removed!!","operation":"WRITE","operationParameters":{"mode": "Append","partitionBy":"["Buyer_Partner_Code"]"},"notebook":{"notebookId":"3864076797603349"},"clusterId":"0713-055328-sonar10","re​​adVersion":0," isolationLevel":"SnapshotIsolation","isBlindAppend":true,"operationMetrics":{"numFiles":"0","numOutputBytes":"0","numOutputRows":"0"}}}

df1.write.format("delta").mode("append").save("/data/dbo/csm_currencyratetype/Buyer_Partner_Code=190935/")

【问题讨论】:

    标签: apache-spark pyspark databricks parquet delta


    【解决方案1】:

    Delta 使用您已经拥有的相同文件 .parquet,但首先您应该创建 delta 表以创建 delta 日志和元数据。创建后,您的目录将是一个增量表,您可以继续使用增量格式附加或更新数据。

    import io.delta.tables._
    
    // Convert unpartitioned Parquet table at path '<path-to-table>'
    val deltaTable = DeltaTable.convertToDelta(spark, "parquet.`<path-to-table>`")
    

    https://docs.delta.io/latest/delta-utility.html#convert-a-parquet-table-to-a-delta-table

    【讨论】:

    • 好的,我正在尝试这个。
    【解决方案2】:

    我会将您的parquet注册为表格(您可以尝试直接将其保存为delta,如果您使用parquet则需要在第二步进行转换,请在此之前备份您的数据):

    %sql
    CREATE TABLE buyer USING [DELTA/PARQUET] OPTIONS (path
    "/data/dbo/csm_currencyratetype/Buyer_Partner_Code=190935/");
    

    比使用简单的sql转换:

    %sql
    CONVERT TO DELTA buyer;
    

    Buyer_Partner_Code 看起来像分区号,所以我认为表的路径应该是“/data/dbo/csm_currencyratetype/”

    【讨论】:

      【解决方案3】:

      要回答这个问题,我们可以先了解 Databricks 中的 delta 格式文件。这样我们就可以清楚地理解为什么会出现这个问题。

      当用户创建 Delta Lake 表时,该表的事务日志会自动创建在 _delta_log 子目录中。当他或她对该表进行更改时,这些更改将作为有序的原子提交记录在事务日志中。每个提交都写成一个 JSON 文件,以 000000.json 开头。对表的其他更改会按数字升序生成后续 JSON 文件,以便下一次提交写为000001.json,以下为000002.json,依此类推。

      在这种情况下,当您在同一目录中回写时,Parquet 和 delta 都会发生冲突。所以你可以把它写在另一个目录中,而不是在同一个目录中。

      【讨论】:

        猜你喜欢
        • 2017-05-20
        • 1970-01-01
        • 2018-07-31
        • 2020-05-10
        • 2020-11-04
        • 2020-09-22
        • 1970-01-01
        • 1970-01-01
        • 2018-11-08
        相关资源
        最近更新 更多