【发布时间】:2017-08-10 19:01:50
【问题描述】:
背景——我们正在尝试将不同的文件类型(csv 或 parquet)读入 pyspark,我的任务是编写一个确定文件类型的程序。
parquet 文件似乎总是目录,parquet 文件在 HDFS 中作为目录出现。
我们有一些csv文件也是目录,其中文件名是目录名,目录包含几个部分文件。哪些流程可以做到这一点?
为什么有些文件是“文件”,有些文件是“目录”?
【问题讨论】:
标签: hadoop pyspark hdfs parquet