【问题标题】:How to decide Cluster size and type of instance to be used in HDFS?如何确定要在 HDFS 中使用的集群大小和实例类型?
【发布时间】:2018-07-31 02:52:43
【问题描述】:

如何确定 HDFS 中每台机器的集群大小、节点数量、要使用的实例类型和硬件配置设置?如果可能,请解释如何处理 10 TB 的数据。 例如如果我们有 10 TB 的数据,那么标准集群大小应该是多少,节点数以及在 hadoop 中可以使用什么类型的实例?

【问题讨论】:

  • “实例类型”是什么意思?如果您在谈论 AWS 或其他云,您不应该将 HDFS 用于持久存储...此外,您的答案取决于您想对服务器做什么,而不仅仅是数据大小

标签: hadoop hdfs


【解决方案1】:

我已经 Hadooping 几年了。首先,查看此 Hortonworks 指南: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/ch_hardware-recommendations_chapter.html

一些个人笔记:

  • 最低限度,取决于 3 的复制因子,您需要大约 50TB(10x3=30TB 80% 规则:40TB 可用,这给您 8TB 的工作空间)- 因此,对于 HDFS,5 个节点以 10TB 为单位
  • HDFS 最多只能使用总集群空间的 80%
  • 更多节点 = 更快的 YARN 作业
  • Hive 和 PIG 可以像未压缩一样读取压缩数据
  • 我个人从 5 个节点开始,3 个用于 zookeeper quorum,2 个可以分配 NameNodes
  • 都可以设置为DataNodes

  • 不要忘记 Ambari 服务器,并将其设为 VM...您需要每天备份和快照

  • 升级/更新可能会搞砸,如果工作失败,请始终制定计划
  • 有时最基本的安装不会按计划进行;)
  • 从小处着手,向外扩展! Hadoop 就是建立在这种思维之上的!

TLDR: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/conclusion.html

5 个节点,每块 10TB,用于 HDFS

【讨论】:

  • 随着 HDP 现在在 Hadoop 3 上发布,3x 存储规则不再适用于纠删码
  • 这很有趣,尽管我仍然会避免使用高于 2.6.4 的任何内容用于生产用途。任何最前沿的东西通常都不那么可靠;)
  • 是的。顺便说一句,您忘记在答案中提及 YARN 服务以及将所有这些服务压缩到仅 5 台机器(外加一个 VM)的内存要求
  • 是的,我认为如果他遵循指南(每个节点至少 24 GB 到 48 GB RAM),他应该没问题。虽然,他没有回应或具体说明他在做什么,哈哈
  • 感谢您的回复。我是她而不是他。感谢@Petro 的解释。我检查了您提供的链接,它很有帮助。
猜你喜欢
  • 2015-09-26
  • 2015-03-11
  • 1970-01-01
  • 1970-01-01
  • 2016-05-05
  • 2023-03-29
  • 2021-06-29
  • 2013-06-01
  • 2017-11-22
相关资源
最近更新 更多