大量交易数据信息模式生成答案

【问题标题】：high volume transaction data informative pattern generation大量交易数据信息模式生成
【发布时间】：2012-10-15 02:44:11
【问题描述】：

我正在尝试从大量交易数据中找出信息丰富的数据模式。

通常我的数据是一组具有明确定义的列（如发送方、接收方、金额、货币地址等 - 我有大约 40-50 个不同的列），数据量将是数百万（可能是数百万）记录我的目标是从中生成信息丰富的交易模式 - 谁购买特定商品最多，交易量最高的接收者，费用模式，谁从同一个发件人那里获得更多交易等等。

之前我计划在关系数据库 (Oracle/MySQL) 中加载数据并编写复杂的 SQL 来获取这些信息，但通过在我的概念验证期间查看容量，它似乎没有太大的可扩展性。

我试图获取有关使用 Hadoop 等进行分布式数据处理的更多信息。我刚开始阅读 Hadoop，在我最初的理解中，Hadoop 非常适合非结构化数据处理，可能对关系数据处理没有多大用处。

关于开源技术的任何指示/建议，我可以快速尝试。

【问题讨论】：

【解决方案1】：

Hadoop 可用于结构化/非结构化数据处理。此外，它不是像传统 RDBMS 那样维护关系、索引的数据库。

数百万行HBase 或Cassandra 结合/不结合Hive 可用于批量查询。 Hadoop 中的批量查询已经存在了一段时间并且已经成熟。

对于交互式查询，可以使用Drill 或Imapala。请注意，Drill 开发刚刚开始并且处于孵化器阶段。同时，Cloudera 刚刚宣布了 Imapala。这是some 有趣的info 用于实时引擎。

请注意，还有许多其他开源框架可能符合要求，但这里只提到了其中的几个。根据详细的需求分析和不同框架的优缺点，选择合适的框架。

【讨论】：