【发布时间】:2020-02-27 00:18:41
【问题描述】:
我正在尝试执行类似this 的操作,将 S3 存储桶中的文件列表读取到 pyarrow 表中。
如果我指定文件名,我可以这样做:
from pyarrow.parquet import ParquetDataset
import s3fs
dataset = ParquetDataset(
"s3://path/to/file/myfile.snappy.parquet,
filesystem=s3fs.S3FileSystem(),
)
一切都按预期进行。但是,如果我这样做:
dataset = ParquetDataset(
"s3://path/to/file,
filesystem=s3fs.S3FileSystem(),
)
我明白了:
pyarrow/_parquet.pyx:1036: in pyarrow._parquet.ParquetReader.open
pyarrow.lib.ArrowIOError: Invalid Parquet file size is 0 bytes
【问题讨论】: