【发布时间】:2018-06-22 22:25:39
【问题描述】:
我正在开展一个项目,该项目需要从庞大的 PostgreSQL 数据库生成镶木地板文件。数据大小可能很大(例如:10TB)。我对这个主题很陌生,并且在网上做了一些研究,但没有找到将数据转换为 Parquet 文件的直接方法。以下是我的问题:
- 我看到的唯一可行的解决方案是通过 JDBC 将 Postgres 表加载到 Apache Spark 并保存为 parquet 文件。但我认为传输 10TB 数据时会很慢。
- 是否可以生成 10 TB 的巨大 parquet 文件?还是创建多个 parquet 文件更好?
希望我的问题很清楚,我非常感谢任何有用的反馈。提前致谢!
【问题讨论】:
-
使用 Apache Sqoop
-
你是如何解决这个任务的?
标签: postgresql apache-spark parquet