【发布时间】:2016-08-08 13:15:14
【问题描述】:
我们有一个系统,包括一些 Oracle 和 Microsoft SQL DBMS,可以从不同来源以不同格式获取数据、存储和处理数据。 “不同格式”是指文件:dbf、xls 等,包括二进制格式(图像),使用不同的工具导入 DBMS,并直接访问数据库。我想隔离所有传入的数据并将其“永久”存储,并希望稍后按源和创建时间获取它们。经过一些研究,我想尝试 hadoop 生态系统,但不太确定它是否是实现这一目标的充分解决方案。我应该使用生态系统的哪些部分?单独的 HDFS,Hive,可能是别的东西?能给我一点建议吗?
【问题讨论】:
标签: hadoop