【发布时间】:2012-09-12 06:31:27
【问题描述】:
我正在寻找由 Amazon 托管的 Apache Hive 的机制。我假设,它用 S3 代替 HDFS,用 EMR 代替 Hadoop MapReduce。我的假设是否正确?
【问题讨论】:
标签: apache hadoop amazon-s3 amazon-web-services hive
我正在寻找由 Amazon 托管的 Apache Hive 的机制。我假设,它用 S3 代替 HDFS,用 EMR 代替 Hadoop MapReduce。我的假设是否正确?
【问题讨论】:
标签: apache hadoop amazon-s3 amazon-web-services hive
你大多是正确的。我想说在亚马逊上运行 Hive 最方便的方法是
用 S3 替换 HDFS。这是实用的,因为数据存在于 S3 上,我们可以按需运行 Hadoop / Hive 集群。一些缺点是写入性能慢 - 因此进行数据转换会很慢。进行聚合 - 大部分都很好
同时还有其他配置:
在本地驱动器上构建 HDFS。
在 EBS 卷上构建 HDFS。
各有各的取舍。
【讨论】: