【发布时间】:2015-03-08 04:10:57
【问题描述】:
我目前正在从事一个需要支持的长期项目:
- 通过 RESTful 服务进行大量快速读/写操作
- 分析引擎不断读取和理解数据
分析引擎的性能不受来自 API 调用的读取/写入量的影响至关重要。
因此,我认为我可能必须使用“前端”数据库和某种“后端”数据仓库。我还需要 Elastic Search 或 Solr 之类的东西来索引存储在数据仓库中的数据。
问题:
- 这是推荐的设置吗?替代方案是什么?
如果是这样...
- 我正在考虑将 Hive 或 Pig 用于数据仓库,并将 Elastic Search 或 Solr 作为搜索引擎。哪种组合可以更好地协同工作?
最后……
- 我正在认真考虑将 Cassandra 作为“前端”数据库。 Cassandra 和 Hadoop 之间有什么关系,何时/为什么要将它们放在一起工作,而不是只有 Cassandra?
请注意,我的目的不是要开始讨论其中哪个更好,而是要了解如何才能更有效地使它们更好地工作。如果有任何不同,主要代码是用 Scala 和 Java 编写的。
非常感谢您的帮助。我基本上是边走边学,所有的 cmets 都会很有帮助。
谢谢。
【问题讨论】:
标签: solr elasticsearch cassandra hive apache-pig