【问题标题】:What happens when a local SSD fails in a Google Cloud Platform compute engine instance?当 Google Cloud Platform 计算引擎实例中的本地 SSD 发生故障时会发生什么?
【发布时间】:2020-01-26 21:41:22
【问题描述】:

当连接到计算引擎实例的多个本地 SSD 之一出现硬件故障时会发生什么?具体来说:

  1. Google Cloud Platform 是否自动检测到故障?
  2. 是否有通知,例如通过电子邮件?
  3. 更换驱动器需要多长时间?
  4. VM 是否停止并在更换后重新启动?或者,它是热插拔的吗?
  5. 显然,该 SSD 上的数据丢失了,但是连接到同一虚拟机的其他 SSD 上的数据会怎样?

编辑:我知道本地 SSD 的“短暂”性质,并计划将我的数据复制到我主要区域中不同区域的多台机器上,并至少将一次复制到完全不同的区域。我计划使用的数据库是“数据中心/机架感知”。我特别在寻找有关 Google Cloud Platform 如何处理本地 SSD 中的硬件故障的文档/信息。

【问题讨论】:

  • 这能回答你的问题吗? Google Cloud - Local SSD hadware failure?
  • @MartinZeitler 不是。我知道本地 SSD 的“短暂”性质。我将跨多个区域进行数据复制,甚至可能跨多个区域。我正在寻找有关本地 SSD 发生故障时会发生什么的更多信息。我在 GCP 文档中找不到任何内容。
  • 如果本地 SSD 发生故障,则实例发生故障。将使用空白 SSD 启动一个新实例。存储在所有 SSD 上的所有数据都将丢失。您需要设置 Stackdriver 监控和提醒才能收到通知。未在同一个 VM 实例上更换驱动器。
  • @JohnHanley 谢谢。 Google 是否在任何地方记录了这种行为?虽然我不怀疑您对该主题的了解,但我们将非常感谢您提供官方文档的链接!
  • 没有我知道的文档。我是 Google GDE,我的评论来自个人经验和知识。如果我有权威的链接参考,我会发布答案。

标签: google-cloud-platform google-compute-engine


【解决方案1】:

您可能希望改用永久性磁盘,因为您的用例可能不适用:

正如adding local SSDs 所说:

本地 SSD 仅适用于临时存储,例如缓存、处理空间或低价值数据。如果您将重要数据存储在本地 SSD 设备中,则还必须将相同的数据存储在持久存储选项中。

【讨论】:

  • 请查看我对我的问题的评论。但基本上我会在多个区域或地区复制我的数据。
【解决方案2】:
  1. 是的
  2. 视情况而定 - 块级故障就是这样,直接传递给来宾。因此,您可能会在 dmesg 或类似文件中看到读取错误。如果整个设备出现故障,您会在实例的 Cloud Logging 日志中看到 hostError。接下来会发生什么取决于您的维护政策。
  3. 从用户的角度来看,驱动器不会被替换 - 您只能获得一个新实例。 (当然,Google 会在内部更换损坏的硬件,但这不会暴露给客户)

第 4 点和第 5 点有点难以回答 - 当 hostError 发生自动重启时,您有一个 60 minutes recovery timeout。然而,这实际上可能意味着您的实例在尝试恢复损坏的本地 SSD 时花费 60 分钟处于 RUNNING 但未启动状态,然后最终失败并使用空白本地 SSD 启动。

总的来说,我建议您将实例视为故障域而不是单个磁盘,因为任何类型的问题都可能导致实例的 hostError 而不是部分故障。

【讨论】:

    【解决方案3】:

    我想澄清#5。

    如果您的虚拟机遇到host error google documentation states

    如果主机系统遇到主机错误,Compute Engine 会生成 尽最大努力重新连接到 VM 并保留本地 SSD 数据, 但可能不会成功。如果尝试成功,VM 将重新启动 自动地。但是,如果尝试重新连接失败,VM 在没有数据的情况下重新启动。

    这意味着不能保证您可以取回您的数据。相应地计划将您的数据存储在更可靠的解决方案中,例如永久性磁盘或存储桶,这并不有趣。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-02-21
      • 2013-08-04
      • 1970-01-01
      • 2014-01-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-11-23
      相关资源
      最近更新 更多