【问题标题】:When is data deleted from data nodes in case of hdfs dfs -rmr on a folder?文件夹上的 hdfs dfs -rmr 何时从数据节点中删除数据?
【发布时间】:2023-04-08 17:12:01
【问题描述】:
我们知道,当我们运行 rmr 命令时,会创建编辑日志。数据节点是否在清除数据之前等待对 FSImage 的更新,或者这也是同时发生的?从 Journal 节点确认交易是否有任何先决条件?只是想了解 HDFS 编辑是如何工作的,您可能会在磁盘大小上发生巨大变化。在“hdfs dfs -du -s -h /folder”和“hdfs dfsadmin -report”反映大小减少之前需要多长时间?我们尝试删除 2TB 的数据,1 小时后,数据节点本地文件夹(/data/yarn/datanode)仍然没有减少 2TB。
【问题讨论】:
标签:
hdfs
hadoop-yarn
hadoop2
【解决方案1】:
从 HDFS 删除数据后,hadoop 将该数据保留在垃圾文件夹中,您需要运行以下命令以释放磁盘空间
Hadoop fs -expunge
然后HDFS会释放空间。
或者您可以在删除数据时运行以下命令以跳过垃圾
Hadoop fs -rmr -skipTrash /folder
它不会将数据移入垃圾箱。
注意:文件会在 /trash 中保留一段可配置的时间。在 /trash 中的生命周期到期后,NameNode 会从 HDFS 命名空间中删除该文件。