【问题标题】:Guaranteeing that a task is added to push queue only once in GAE保证一个任务在 GAE 中只添加一次推送队列
【发布时间】:2017-08-21 04:22:59
【问题描述】:

我想确保一个任务——尤其是在单个实体上运行的任务——最多被添加到推送队列中,直到之前添加的任务完成为止。然后我应该能够再次为同一个实体添加相同的任务。

一个简单的例子是更新实体 A 的任务。我希望能够:

  1. 添加任务 X 以将实体 A 更新到推送队列。
  2. 当任务 X 在实体 A 的队列中时,为实体 A 添加任务 X 的所有其他尝试都应该失败。
  3. 完成后,我应该可以再次为实体 A 添加任务 X。

简单的解决方案似乎是使用包含任务 X 的名称和实体 A 的唯一 ID 的任务名称。

但是,我认为这种方法不满足条件 3:任务名称在无法控制的时期内被“墓碑化”并且在此之前无法重复使用。

来自docs

分配您自己的任务名称的一个优点是命名任务是 去重,这意味着您可以使用任务名称来保证* 任务只添加一次。重复数据删除持续 9 天后 任务已完成或删除。

这是否意味着任务名称在 9 天内不能重复使用?

【问题讨论】:

  • 为什么需要#2?
  • 这样我就不会因为更新该实体而发生不必要的争执。
  • 那么您如何处理无法将更新任务排入队列的实体更改?
  • @DanCornilescu 下次运行任务以更新该实体时,它将捕获干预更改(只需计算所有满足特定条件的实体,然后将计数存储在属性中)。

标签: java google-app-engine task-queue


【解决方案1】:

确实,任务名称在不再在队列中后的 9 天内不能重复使用。可能是一个安全原因,以确保从整个分布式基础架构中清除以前同名任务的所有痕迹。

您可以在任务名称中编码当前时间戳,四舍五入到整秒,这会将您的实际写入速率限制为 1/s(无论如何这是对同一实体组的最大平均写入速率)。如果您未能将任务排入队列(因为它已经在队列中),您将尝试在下一秒将一个任务排入队列(如果您没有其他触发另一个更新任务的方法)。 但是将时间戳编码到任务名称的末尾,而不是开头,以避免您引用的同一文档中提到的性能影响。

【讨论】:

  • 有趣的想法重新时间戳。在其他有点相似的用例中,我已经在使用时间戳,但精确到毫秒......
【解决方案2】:

我过去有过这种用例,我需要对单个实体进行大量小更新,但更新不需要立即反映。我通过在拉取队列中批量更新解决了这个问题,我让 cron 作业每 X 分钟运行一次,以拉取一些任务并进行批量更新。在我的情况下,cron 作业只是将任务排入推送队列。然后任务从拉取队列中消费并进行事务更新。

参考文档https://cloud.google.com/datastore/docs/articles/fast-and-reliable-ranking-in-datastore/

【讨论】:

  • 这类似于我的用例:可能需要进行大量更新,但即时性不是问题,正确性更重要。希望避免拉队列☺️,但也许这就是要走的路......
  • 为什么要避免拉队列? :P 需要设置一些额外的代码,但是 0 争用并且超级快!
  • 不得不设置另一组类以使使用拉取队列更加方便 :-) 这基本上是一种懒惰。我非常喜欢的争用部分,因为重试交易会浪费大量时间。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-04-11
  • 1970-01-01
  • 1970-01-01
  • 2012-08-13
相关资源
最近更新 更多