【发布时间】:2012-10-15 02:44:11
【问题描述】:
我正在尝试从大量交易数据中找出信息丰富的数据模式。
通常我的数据是一组具有明确定义的列(如发送方、接收方、金额、货币地址等 - 我有大约 40-50 个不同的列),数据量将是数百万(可能是数百万)记录我的目标是从中生成信息丰富的交易模式 - 谁购买特定商品最多,交易量最高的接收者,费用模式,谁从同一个发件人那里获得更多交易等等。
之前我计划在关系数据库 (Oracle/MySQL) 中加载数据并编写复杂的 SQL 来获取这些信息,但通过在我的概念验证期间查看容量,它似乎没有太大的可扩展性。
我试图获取有关使用 Hadoop 等进行分布式数据处理的更多信息。我刚开始阅读 Hadoop,在我最初的理解中,Hadoop 非常适合非结构化数据处理,可能对关系数据处理没有多大用处。
关于开源技术的任何指示/建议,我可以快速尝试。
【问题讨论】:
标签: hadoop distributed-computing large-data-volumes