【发布时间】:2020-03-26 23:40:10
【问题描述】:
感谢this 答案(阅读第一个答案),我能够读取位于 GCS 上的镶木地板文件。我使用了 pd.read_parquet 函数和 pyarrow 引擎。
我现在想访问 parquet 元数据而不将数据下载到数据框中。熊猫可以做到这一点吗?
【问题讨论】:
-
您好,我也有类似的问题。你找到解决办法了吗?
感谢this 答案(阅读第一个答案),我能够读取位于 GCS 上的镶木地板文件。我使用了 pd.read_parquet 函数和 pyarrow 引擎。
我现在想访问 parquet 元数据而不将数据下载到数据框中。熊猫可以做到这一点吗?
【问题讨论】:
我找到了一个解决方案,在没有 Pandas 的情况下使用 gcsfs:
import pyarrow.parquet as pq
import gcsfs
fs = gcsfs.GCSFileSystem(project=myprojectname)
f = fs.open(myfilepath)
myschema = pq.ParquetFile(f).schema
print(myschema)
【讨论】: