【问题标题】:Concurrent database (PostgreSQL) commands in the same transaction同一事务中的并发数据库 (PostgreSQL) 命令
【发布时间】:2011-11-01 02:32:29
【问题描述】:

我正在编写一个 .NET 4 应用程序,它将文件中的大量数据导入 PostgreSQL 9.1 数据库。分析表明,实际 INSERT 数据的 DB 调用占用了 90% 以上的时间。数据库服务器似乎受 CPU 限制 - 使用所有一个 CPU。

如果可能,我想通过使用所有 CPU 更快地导入数据。输入文件可以在客户端被分成几部分,所以这通常不会太难,但我想确保如果在导入文件时发生任何错误,那么数据库根本不会被修改。为了实现这一点,我将在一个事务中完成整个导入。

是否有可能以某种方式向数据库服务器发送并发命令(以利用其所有 CPU),但仍确保整个导入成功或不进行任何更改?据我了解,不能从多个线程使用事务来同时运行多个命令,可以吗?我使用 Npgsql 作为 ADO.NET 提供程序,如果这会有所不同的话。

【问题讨论】:

    标签: .net multithreading postgresql transactions thread-safety


    【解决方案1】:

    Postgres 9.6 之前,使用标准 PostgreSQL 的多个线程无法并行处理事务,在该版本中,此功能被添加为 "parallel query"

    不过,您的 INSERT 操作受 CPU 限制似乎很可疑。这里有几件事可能会有所改进。您究竟如何将数据发送到服务器? INSERT数据入表基本上有四种方式:

    1. 一次一行,VALUES 表达式提供文字
    2. VALUES 表达式一次多行
    3. INSERTSELECT(插入 0-n 行)
    4. COPY

    COPY 是目前最快的方法。

    • 在大量 INSERT / COPY 之前删除索引并在之后重新创建它们会更快。增量添加索引元组的效率远低于一次创建索引。

    • 触发器、约束或外键约束是其他会降低您速度的因素。也许您可以在批量加载之前禁用/删除并在之后启用/重新创建?

    还有一些设置可以产生重大影响。

    • 您可以关闭fsync and synchronous_commit。 (有风险!)

    • 暂时禁用autovacuum。之后立即运行ANALYZE。 (小心那些!)

    阅读 Postgres Wiki 中关于 Bulk Loading and RestoresTuning Your PostgreSQL Server 的文章,尤其是关于 checkpoint_segmentscheckpoint_completion_target 的段落。

    该操作可能不像看起来那样受 CPU 限制。看看这个paragraph in the PostgreSQL Wiki

    另一个放缓的原因可能是日志记录。例如,log_statement = all 会产生巨大的日志文件,这是有代价的,尤其是单行插入。

    这里又是 PostgreSQL Wiki 中的 quick method to check all your custom settings

    还有一个加快速度的想法,尤其是在您无法关闭 fsync 的情况下。像这样创建一个或多个空临时表

    CREATE TEMP TABLE x_tmp AS SELECT * FROM real_tbl LIMIT 0;
    

    考虑一下如何处理序列和其他默认值! INSERT 将所有数据写入临时表,然后在一个命令中写入目标表。索引和约束再次关闭,但时间要短得多。

    INSERT INTO real_tbl SELECT * FROM x_tmp ORDER BY something;
    DROP TABLE x_tmp;
    

    可能会更快。确保为各种设置使用足够的 RAM。尤其看temp_buffers

    【讨论】:

    • +1 谢谢,欧文。我一次插入一行,因为我经常需要新行的自动生成的 ID 来插入依赖它的其他行。我知道可以使用WITH 一次性插入多个相关行——这仍然是我必须尝试的。我看不出有什么方法可以在这里使用SELECTCOPYINSERT,但我会先尝试一下您删除索引并禁用约束和自动清理的想法。 DB中也有触发器,但只有ON DELETE,所以我猜他们不应该放慢INSERT
    • 我不认为我可以关闭fsync,因为我不拥有数据库服务器。为我的数据库关闭 synchronous_commit 可能是可能的,但由于最后只有一个 COMMIT 我猜它不会有太大的不同(COMMIT 本身很快)。
    • 单行插入是迄今为止最慢的方法。也许您可以进行一些预处理并一次插入至少几行? CTE(WITH 子句)是一个不错的功能,但它们也不会为您提供子选择无法做到的任何事情。 DELETE 触发器不应该是相关的。 synchronous_commit 对单笔交易没有多大帮助,fsync 肯定有帮助,但无论如何篡改都是有风险的。我会用另一个想法修改我的答案......
    • 谢谢,我想我会先尝试禁用约束,看看有多大帮助,然后看看是否有办法让临时表工作。我怀疑这会很困难,因为表和自动生成的 ID 之间存在依赖关系。
    【解决方案2】:

    另一个行动计划可能是这样的:

    • 定义一个新的未规范化表来保存您的输入数据。我们称之为“分期”
    • 使用多线程和多连接填充该表。
    • 一旦数据存在,使用 real 表中的序列将所需的 ID 插入到暂存表中。
    • 并行工作阶段到此结束。
    • 使用一个事务并执行适当的批量插入语句,将您的数据从临时表移动到实际表中。
    • 截断临时表。

    在这种情况下,您当前的瓶颈(由于输入处理导致的 CPU 受限)通过支付更多的 IO 币而得到缓解。

    【讨论】:

    • 有趣的想法,但我认为这种复杂性的数据库并不实用(它有超过 200 个表,表之间有很多依赖关系)。不过,对于其他(更简单的)导入任务,我肯定会记住这一点。
    【解决方案3】:

    我会说你应该使用prepared transactions。尽可能多地并行运行,如果它们都到了阶段,它们就可以无错误地准备好,然后提交准备好它们,否则回滚准备好它们。

    您首先必须将 max_prepared_transactions 设置为大于 0 的某个值并重新启动 postgresql。之后,您在单个会话中启动事务,如下所示:

    begin; 
    select yada; 
    insert yada; 
    update yada; 
    prepare transaction 'mytrans';
    

    此时您将收到“准备交易”或“回滚”通知。如果您从任何准备好的事务中获得 ROLLBACK,那么您可以对每个事务进行准备回滚,并且没有一个通过。请注意,您不应留下大量准备好的交易。

    【讨论】:

    • 这是一种可能性,但我认为它只适用于独立于其他任何东西的表。例如。如果表 B 引用表 A,那么我不能将它们插入单独的准备好的事务中,因为 B 中的任何行都可能引用 A 中的任何行 - 在插入之前我无法“垂直”对它们进行分区。
    【解决方案4】:

    请注意,pg_restore 现在使用多线程模式来从多核架构中获得恢复压缩转储的好处。因此,管理多个连接的大量进口当然是一个好主意。我已经看到将作业数设置为 pg_restore 的 2* 核心数的良好收益的报告。

    但是 pg_restore 不能使用 --single-transaction 这个设置。所以和你一样的问题。您可以使用PREPARE TRANSACTION 语句尝试两阶段提交事务,这通常是由事务管理器而不是应用程序完成的,但是如果其中一个事务在您的导入过程中失败,这可以帮助您使多个事务无效。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-13
      • 2015-06-30
      • 1970-01-01
      • 2012-05-07
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多