【问题标题】:How to do common operations with HDFS files using fs.HadoopFileSystem?如何使用 fs.HadoopFileSystem 对 HDFS 文件进行常用操作?
【发布时间】:2022-01-11 23:56:56
【问题描述】:

我需要使用python3对HDFS目录做一些普通的操作。 如 mkdirchmodchowntest(如果 dir 存在)。

我尝试使用pyarrow,因为它是官方的python客户端。

所以,我查看了 throw new API documentation,找不到任何有用的方法。 legacy HDFS API 的用法允许这样做,但已弃用。

谁能回答,如何使用新的 API 进行我提到的操作?

【问题讨论】:

    标签: python-3.x hdfs pyarrow


    【解决方案1】:

    pyarrow.HadoopFileSystem.mkdir 的等价物是pyarrow.fs.HadoopFileSystem.create_dir

    没有pyarrow.HadoopFileSystem.test,但有pyarrow.fs.HadoopFileSystem.get_file_info

    chownchmod 没有等效项。新的文件系统 API 的动机是“更高级别的 Arrow 模块所需的最小操作集是什么?(例如数据集 API)”。添加到新 API 的每个方法都必须添加到每个子实现中,而且大多数其他文件系统都有自己的 python 绑定。

    你考虑过独立的hdfs 包吗?

    【讨论】:

    • 感谢您的快速回复。是的,我认为这个包是替代方案,但认为 pyarrow 是更好的选择,因为它是来自 apache 的包。现在我想,hdfs 包会更适合我。谢谢。
    猜你喜欢
    • 1970-01-01
    • 2018-03-28
    • 1970-01-01
    • 2020-10-12
    • 2013-06-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多