【问题标题】:How to watch an hdfs directory and copy the latest file that arrives in hdfs to local?如何查看 hdfs 目录并将到达 hdfs 的最新文件复制到本地?
【发布时间】:2019-08-26 06:10:10
【问题描述】:

我想在bash/python 中编写一个脚本,以便脚本复制到达hdfs 目录的最新文件。我知道我可以在本地使用inotify,但是如何在hdfs? 中实现它 你能分享一下它的示例代码吗?当我在谷歌搜索它时,它给了我很长的代码。除了inotify(如果它太复杂的话)还有其他更简单的方法

【问题讨论】:

  • 最新到达 与最近写入的文件一样吗?
  • 是的,最近的
  • 不要编辑要回答的问题。贴吧。
  • 不是答案,我在本地建议了inotify的代码!

标签: python bash hdfs inotify


【解决方案1】:

不雅的hack:

使用 FUSE 挂载 hdfs,然后定期使用find <mountpoint> -cmin n 获取最近 n 分钟内创建的文件列表。

然后使用find <mountpoint> -anewer对其进行排序。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-11-14
    • 2018-10-01
    • 1970-01-01
    • 2013-07-24
    • 1970-01-01
    • 2020-03-23
    相关资源
    最近更新 更多