【问题标题】:How to synchronise RDBMS data with HDFS data如何将 RDBMS 数据与 HDFS 数据同步
【发布时间】:2018-10-06 17:51:08
【问题描述】:

我有一个包含 300 个表的 Oracle 数据库,所有类型的 DML 操作(插入/更新/删除)都在这些表上执行。我已使用 Sqoop 将当前数据从 RDBMS 移动到 HDFS。现在我想在执行任何 DML 操作时将实时数据与 HDFS 数据同步。我可以为此目的使用 Kafka 吗?它是否支持更新和删除操作。

【问题讨论】:

标签: hadoop apache-kafka hdfs


【解决方案1】:

是的,在一定程度上。你可以stream databases into Kafka,但你如何处理更新和删除登陆到 HDFS 取决于你如何从源中获取数据,以及你将其登陆到 HDFS 的原因。 您可以使用HDFS sink 从 Kafka 流式传输到 HDFS,但这不会更新/删除 HDFS 中已经存在的数据。为此,您需要一些自定义处理。

将数据登陆到 HDFS 并需要与 DB 实时同步的原因是什么?也许您正在寻找的模式可能不是最适合 HDFS(通常不是实时技术)?

【讨论】:

  • 感谢您的回复。我正在寻找一种解决方案,可用于根据表上所做的 DML 更改更新 HDFS 中的数据。如果您有建议,那将是很大的帮助。
  • 但是为什么你要更新HDFS中的数据?它在驱动什么过程?我的建议已经在我的回答中了。
【解决方案2】:

也许您应该重新考虑您对 HDFS 的选择。例如,Apache Kudu 可能更适合您的用例。特别是考虑到您的主要数据源是 RDBMS。

更多信息:

【讨论】:

    猜你喜欢
    • 2017-10-31
    • 1970-01-01
    • 1970-01-01
    • 2020-09-04
    • 2016-08-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多