【问题标题】:Installing Hbase / Hadoop on EC2 cluster在 EC2 集群上安装 Hbase / Hadoop
【发布时间】:2011-02-25 03:16:15
【问题描述】:

我知道我可以分拆安装 HadoopEC2 集群(除非我错了)。 Hbase 怎么样?我可以预先制作 Hadoop 和 Hbase 并准备好使用吗?还是我需要弄脏我的手。如果不是一个选项,最好的选择是什么? Cloudera 显然两者都有一个包。这是要走的路吗?

感谢您的帮助。

【问题讨论】:

  • 你可以拥有任何你想要的东西......启动一个服务器,在上面安装任何你想要的东西,创建一个图像并保存它。然后,您可以在已安装软件的情况下启动该服务器的无限副本。
  • 虽然您可以这样做,但我在下面的回答已准备好预制图像,但您可能希望保存自己的版本以便随时访问它,以防另一个被删除.
  • 检查这个链接,可能是它的帮助充分docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/…

标签: amazon-ec2 hadoop hbase


【解决方案1】:

hbase 有一组 ec2 脚本,可以让您快速设置并准备好使用。它允许您配置 zk 服务器和从节点的数量,但我不确定它们在哪些版本中可用。我正在使用 0.20.6。设置一些 S3/EC2 信息后,您可以执行以下操作:

/usr/local/hbase-0.20.6/contrib/ec2/bin/launch-hbase-cluster CLUSTERNAME SLAVES ZKSERVERS

快速开始使用集群。很好,因为它还会为您安装 LZO 信息。

以下是 bin 目录中环境文件中的一些可能有用的参数(如果您需要 20.6 AMI):

# The version of HBase to use.
HBASE_VERSION=0.20.6

# The version of Hadoop to use.
HADOOP_VERSION=0.20.2

# The Amazon S3 bucket where the HBase AMI is stored.
# Change this value only if you are creating your own (private) AMI
# so you can store it in a bucket you own.
#S3_BUCKET=apache-hbase-images
S3_BUCKET=720040977164

# Enable public access web interfaces
ENABLE_WEB_PORTS=false

# Extra packages
# Allows you to add a private Yum repo and pull packages from it as your
# instances boot up. Format is <repo-descriptor-URL> <pkg1> ... <pkgN>
# The repository descriptor will be fetched into /etc/yum/repos.d.
EXTRA_PACKAGES=

# Use only c1.xlarge unless you know what you are doing
MASTER_INSTANCE_TYPE=${MASTER_INSTANCE_TYPE:-c1.xlarge}

# Use only c1.xlarge unless you know what you are doing
SLAVE_INSTANCE_TYPE=${SLAVE_INSTANCE_TYPE:-c1.xlarge}

# Use only c1.medium unless you know what you are doing
ZOO_INSTANCE_TYPE=${ZOO_INSTANCE_TYPE:-c1.medium}

如果 ami 中没有设置 JAVA_HOME(我不这么认为),您可能还需要设置您的 java 版本。较新版本的 hbase 可能在 S3 存储桶中可用,只需对 hadoop/hbase 执行描述实例和 grep 以缩小结果范围。

【讨论】:

    【解决方案2】:

    据我所知,让 hbase 在 EC2 上运行的最简单、最快的方法是使用 apache whirr

    【讨论】:

      【解决方案3】:

      您了解 Amazon Elastic MapReduce 吗?它不提供 Hbase,但提供普通的 Hadoop、Hive 和 Pig(在相当最新版本中)。最大的好处是他们在 90% 的节点启动之前不会开始向您收费,缺点是每小时比正常的 EC2 略有溢价。

      如果您真的需要/想要使用 HBase,那么您最好自己动手做一些事情。有关 Hive 和 Hbase 集成的讨论,请参阅以下 Cloudera 博客文章:http://www.cloudera.com/blog/2010/06/integrating-hive-and-hbase/

      【讨论】:

      • 我们决定使用 EMR。它很容易使用,这是肯定的。我将 HBase 推迟到以后。 MySql 暂时看起来还不错。迟早我将不得不对此进行调查;希望到那时 EC2 将提供 Hive 产品。
      • 好东西,感谢您的更新。让我们知道您是如何找到它的。
      • 你可能已经看到了,但是 EMR 现在提供 HBase 和 Hive。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-03
      • 1970-01-01
      • 1970-01-01
      • 2014-06-03
      相关资源
      最近更新 更多