【发布时间】:2016-02-26 13:16:05
【问题描述】:
我正在使用 s3 (s3:// 文件系统) 运行 EC2 集群。在这里,当我运行任何 hive 查询或一些对非常大的数据进行操作的 hadoop 命令时,它会在将 tmp 文件复制到/从 s3 复制之前/之后复制节点上本地磁盘上的 tmp 文件。我知道它可以使用 'fs.s3.buffer.dir' 属性进行配置。理想情况下它应该删除它,但在某些情况下它不会删除这些文件,从而导致大量 .tmp 文件(以 GB 为单位)的积累。导致空间问题。
无论如何我们可以避免创建 .tmp 文件吗? 或者,如果我们可以确定为什么在某些情况下它不会删除那些 .tmp 文件并进行更正?
请提出在这种情况下最好的解决方案。
【问题讨论】:
标签: hadoop amazon-web-services amazon-s3 amazon-ec2 hive