【发布时间】:2018-03-18 08:10:22
【问题描述】:
根据 Hadoop 3.x 发行说明,他们引入了擦除编码来克服存储问题。
纠删码是一种持久存储数据的方法,与复制相比可节省大量空间。与标准 HDFS 复制的 3 倍开销相比,像 Reed-Solomon (10,4) 这样的标准编码有 1.4 倍的空间开销。
由于纠删码在重建过程中会产生额外的开销并且主要执行远程读取,因此它传统上用于存储较冷、访问频率较低的数据。用户在部署此功能时应考虑纠删码的网络和 CPU 开销。
我正在寻找相同的示例配置文件。
此外,即使在设置 ec 策略并使用 hdfs ec-enablePolicy 启用它之后,该策略是否仅适用于冷文件,还是默认实施以存储整个 hdfs 文件?
【问题讨论】:
标签: hadoop hdfs hadoop3 erasure-code