fs.s3.buffer.dir中tmp文件的积累答案

【问题标题】：accumulation of tmp files in fs.s3.buffer.dirfs.s3.buffer.dir中tmp文件的积累
【发布时间】：2016-02-26 13:16:05
【问题描述】：

我正在使用 s3 (s3:// 文件系统) 运行 EC2 集群。在这里，当我运行任何 hive 查询或一些对非常大的数据进行操作的 hadoop 命令时，它会在将 tmp 文件复制到/从 s3 复制之前/之后复制节点上本地磁盘上的 tmp 文件。我知道它可以使用 'fs.s3.buffer.dir' 属性进行配置。理想情况下它应该删除它，但在某些情况下它不会删除这些文件，从而导致大量 .tmp 文件（以 GB 为单位）的积累。导致空间问题。

无论如何我们可以避免创建 .tmp 文件吗？或者，如果我们可以确定为什么在某些情况下它不会删除那些 .tmp 文件并进行更正？

请提出在这种情况下最好的解决方案。

【问题讨论】：

标签： hadoop amazon-web-services amazon-s3 amazon-ec2 hive

【解决方案1】：

您可以做一些事情来提供帮助。

启用自动清理 /tmp 目录作为最佳实践，请在此处查看答案：https://serverfault.com/questions/377348/when-does-tmp-get-cleared

参考https://issues.apache.org/jira/browse/HADOOP-10610 并启用自动使用多个目录来存储 tmp 数据以缓解您的大文件问题

针对 Hadoop 项目创建一个 JIRA，以将 tmp 数据存储在 HDFS 中而不是本地文件系统中。

我目前也在调查这个问题，如果我能找到其他机制来缓解这个问题，我会尝试更新。

【讨论】：

感谢肖恩的宝贵建议。我的问题不是大文件，而是 tmp 文件在作业被杀死后没有被删除（在极少数情况下）。在我的情况下，使用多个目录无济于事。但是，是的，定期清理的 Cron 作业可能会有所帮助。