【发布时间】:2018-06-03 02:40:40
【问题描述】:
我正在将我的旧索引工具迁移到 solr(版本 7)。但我不太确定,如何将我的文件索引到 solr。
我们系统中的数据位于 oracle DB、mysql 和 cassendra。但是这些数据库中的更新并不那么频繁(24 小时内 2-3 次),这些将是我的 solr 索引文件的来源。
在其中一个集合中,我将有大约 300k-400k 条记录,而在另一个集合中大约有 5k。
我可以想出两种方法。
- 使用 apache Storm 从差异数据源创建 ETL 管道。
- 使用 Kafka 连接源和接收器。
2 中哪一个对我们这样的系统有好处?或者对于我们这样的系统来说,这两种方法都是矫枉过正的?
【问题讨论】:
-
Nifi 或 Streamsets 可能比手动编写 Storm 拓扑更好,而且这些数据库与 Kafka Connect 有重叠
标签: solr apache-kafka apache-storm