Apache Hive 如何在亚马逊上运行？答案

【问题标题】：How does Apache Hive work on Amazon?Apache Hive 如何在亚马逊上运行？
【发布时间】：2012-09-12 06:31:27
【问题描述】：

我正在寻找由 Amazon 托管的 Apache Hive 的机制。我假设，它用 S3 代替 HDFS，用 EMR 代替 Hadoop MapReduce。我的假设是否正确？

【问题讨论】：

标签： apache hadoop amazon-s3 amazon-web-services hive

【解决方案1】：

你大多是正确的。我想说在亚马逊上运行 Hive 最方便的方法是用 S3 替换 HDFS。这是实用的，因为数据存在于 S3 上，我们可以按需运行 Hadoop / Hive 集群。一些缺点是写入性能慢 - 因此进行数据转换会很慢。进行聚合 - 大部分都很好
同时还有其他配置：
在本地驱动器上构建 HDFS。
在 EBS 卷上构建 HDFS。
各有各的取舍。

【讨论】：

1.与您建议的其他方法相比，写入性能会慢多少？2。哪个选项最便宜，即消耗的 AWS 资源最少？ 3. 我想知道使用 cloudera AMI 是否可以很好地替代在本地驱动器上构建 HDFS。
这取决于实例的种类 - 因为它们与存储的网络连接不同。但大致我估计为 x10