【发布时间】:2012-11-21 04:56:21
【问题描述】:
Greenplum 说它具有并行数据加载功能。我对它的工作原理有疑问。请务必向我解释。我知道记录是并行读取的,但我不明白并行写入是如何完成的。并行写入是在同一个数据库上完成还是在不同的数据库(段)上完成?请解释一下。谢谢
【问题讨论】:
-
-1:这在管理指南第 12 章“加载和卸载数据”中进行了解释
标签: database database-design greenplum
Greenplum 说它具有并行数据加载功能。我对它的工作原理有疑问。请务必向我解释。我知道记录是并行读取的,但我不明白并行写入是如何完成的。并行写入是在同一个数据库上完成还是在不同的数据库(段)上完成?请解释一下。谢谢
【问题讨论】:
标签: database database-design greenplum
并行写入在不同的段上完成,数据由 ETL 服务器上运行的 1 个或多个 gpfdist 实例提供。我怀疑魔法的重要部分是distributed by 扩展,它用于将数据库的行分散到段服务器中。
【讨论】:
在 gpfdist 或 gphdfs 的帮助下,可以在段级别完成并发读/写。
例如,如果您想将数据卸载到磁盘上的文件,您可以使用连接到多个 gpfdist 位置的可写外部表,并且每个数据段会将数据并行写入这些目标。
【讨论】:
约翰是对的。
默认情况下,每个 gpfdist 实例将处理 4 个并发连接。 加载时,每个有连接的段将读取它们的“块”数据并根据表的分布散列进行处理。
【讨论】: