【发布时间】:2016-10-05 22:00:08
【问题描述】:
我想将两个依赖数据库(elasticsearch 和 casandra)与我的父数据库同步:postgres。我正在尝试在本文中实现一个方法:https://qafoo.com/blog/086_how_to_synchronize_a_database_with_elastic_search.html。所以我想出了2个方法
-
在更新/插入数据到依赖数据库之前同步
router.put('/account/edit', function(req, res) { syncElasticWithDatabase().then(() => { elastiClient.update({...}); // client for elasticsearch cassandraClient.execute({...}); // client for cassandra req.end(); }) })
syncElasticWithDatabase() 使用 updates 表中的数据(来自 postgres),这种方法可能会很慢,因为有些人必须等待 syncElasticWithDatabase() 完成。我喜欢这种方法,因为我利用了sequantial_ids(查看文章了解详细信息)。数据在新数据进入之前同步,允许依赖关系赶上,只有错过的数据才会被同步。与下面的选项 2 不同,防止重新索引/重新插入。
-
使用后台进程(ei:每 24 小时运行一次),我可以通过从
update_error表中选择“丢失的数据”来同步数据,该表包含弹性搜索或 cassandra 失败时的数据。这是一个粗略的例子router.put('/account/edit', function(req, res) { psqlClient.query('UPDATE....').then(() => { elastiClient.update({...}); // client for elasticsearch cassandraClient.execute({...}); // client for cassandra }).catch(err => { psqlClient.query('INERT INTO update_error ....') }) })但是,此方法需要重新索引或重新插入数据,因为在某些情况下,elasticsearch 可以插入数据,而 cassandra 没有,或者任何一种方式。因此,我需要一个单独的列来记录失败的数据库类型。通过这种方式,我可以为每种类型的数据库(ealsticsearch 或 cassandra)选择自上次同步时间以来失败的数据。
问题:
方法 1 看起来很完美,但这意味着由于
syncElasticWithDatabase(),某些人将不得不比其他人等待更长的时间来更新他们的帐户。但是上面的文章完全一样(看他们的图表)还是我误解了什么?由于上述延迟(如果我是正确的),我介绍了选项 2。但是,为了同步恕我直言,它太多了。然而我花了很多时间思考这个......那么有比1和2更简单或更好的方法吗?
Apache Zoo Keeper 对我有帮助吗?
谢谢:)
其他参考
Sync elasticsearch on connection with database - nodeJS
https://gocardless.com/blog/syncing-postgres-to-elasticsearch-lessons-learned/
【问题讨论】:
-
我们如何在 windows 上批量导入 postgres 表到 elasticsearch !
标签: node.js postgresql elasticsearch cassandra synchronization