【问题标题】:accumulation of tmp files in fs.s3.buffer.dirfs.s3.buffer.dir中tmp文件的积累
【发布时间】:2016-02-26 13:16:05
【问题描述】:

我正在使用 s3 (s3:// 文件系统) 运行 EC2 集群。在这里,当我运行任何 hive 查询或一些对非常大的数据进行操作的 hadoop 命令时,它会在将 tmp 文件复制到/从 s3 复制之前/之后复制节点上本地磁盘上的 tmp 文件。我知道它可以使用 'fs.s3.buffer.dir' 属性进行配置。理想情况下它应该删除它,但在某些情况下它不会删除这些文件,从而导致大量 .tmp 文件(以 GB 为单位)的积累。导致空间问题。

无论如何我们可以避免创建 .tmp 文件吗? 或者,如果我们可以确定为什么在某些情况下它不会删除那些 .tmp 文件并进行更正?

请提出在这种情况下最好的解决方案。

【问题讨论】:

    标签: hadoop amazon-web-services amazon-s3 amazon-ec2 hive


    【解决方案1】:

    您可以做一些事情来提供帮助。

    启用自动清理 /tmp 目录作为最佳实践,请在此处查看答案:https://serverfault.com/questions/377348/when-does-tmp-get-cleared

    参考https://issues.apache.org/jira/browse/HADOOP-10610 并启用自动使用多个目录来存储 tmp 数据以缓解您的大文件问题

    针对 Hadoop 项目创建一个 JIRA,以将 tmp 数据存储在 HDFS 中而不是本地文件系统中。

    我目前也在调查这个问题,如果我能找到其他机制来缓解这个问题,我会尝试更新。

    【讨论】:

    • 感谢肖恩的宝贵建议。我的问题不是大文件,而是 tmp 文件在作业被杀死后没有被删除(在极少数情况下)。在我的情况下,使用多个目录无济于事。但是,是的,定期清理的 Cron 作业可能会有所帮助。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-05-20
    • 2019-10-29
    • 1970-01-01
    • 1970-01-01
    • 2021-09-12
    • 1970-01-01
    • 2018-05-13
    相关资源
    最近更新 更多