【发布时间】:2013-11-20 17:07:23
【问题描述】:
我们有一个大约 1000 GB(千千兆字节)的数据库,我们正在考虑使用 Hadoop 进行时间序列分析。问题是 Hadoop 需要一些时间才能进入,并且对于我们数据库的大小而言,Hadoop 实际上甚至是一个超大的解决方案。我的问题是,是否有人知道类似 Hadoop 的小规模解决方案。它还需要有一些类似 SQL 的查询语言。我唯一想到的是 JBoss Infinispan。但我想看看是否还有其他已知的解决方案。
【问题讨论】:
-
你存储什么样的数据?
-
嗯,数据是高度相关的,并且以多种方式连接。反应迅速的人... ;-)。
-
我应该补充一点,它是关于数据挖掘,而不是关于 MapReduce。
-
抽象目标是什么?使用数据挖掘可以与应用程序分离(或者实际上应该)因此,根据您的问题(这可能很容易实现),您可能会得到更好的答案
-
@OliverPlow,在执行 ET(或 ETL)之后,通常 Hadoop 与不同的工具一起使用,从而减少连接的数量并允许大型的、可能基于列的模式,而不会受到高度关系的阻碍模式。顺便说一句:您的问题没有单一、客观的答案,因此对于 StackOverflow 来说并不是很好。
标签: sql database hadoop infinispan