【问题标题】:save PostgreSQL data in Parquet format以 Parquet 格式保存 PostgreSQL 数据
【发布时间】:2018-06-22 22:25:39
【问题描述】:

我正在开展一个项目,该项目需要从庞大的 PostgreSQL 数据库生成镶木地板文件。数据大小可能很大(例如:10TB)。我对这个主题很陌生,并且在网上做了一些研究,但没有找到将数据转换为 Parquet 文件的直接方法。以下是我的问题:

  1. 我看到的唯一可行的解​​决方案是通过 JDBC 将 Postgres 表加载到 Apache Spark 并保存为 parquet 文件。但我认为传输 10TB 数据时会很慢。
  2. 是否可以生成 10 TB 的巨大 parquet 文件?还是创建多个 parquet 文件更好?

希望我的问题很清楚,我非常感谢任何有用的反馈。提前致谢!

【问题讨论】:

  • 使用 Apache Sqoop
  • 你是如何解决这个任务的?

标签: postgresql apache-spark parquet


【解决方案1】:

使用ORC 格式代替此卷的拼花格式。 我假设数据是分区的,所以我认为利用数据分区并行提取是个好主意。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-12-07
    • 1970-01-01
    • 2020-08-21
    • 1970-01-01
    • 1970-01-01
    • 2015-10-28
    • 2021-06-02
    相关资源
    最近更新 更多