【问题标题】:Read parquet metadata with pandas from Google Cloud Storage使用 Pandas 从 Google Cloud Storage 读取 parquet 元数据
【发布时间】:2020-03-26 23:40:10
【问题描述】:

感谢this 答案(阅读第一个答案),我能够读取位于 GCS 上的镶木地板文件。我使用了 pd.read_parquet 函数和 pyarrow 引擎。 我现在想访问 parquet 元数据而不将数据下载到数据框中。熊猫可以做到这一点吗?

【问题讨论】:

  • 您好,我也有类似的问题。你找到解决办法了吗?

标签: python pandas parquet


【解决方案1】:

我找到了一个解决方案,在没有 Pandas 的情况下使用 gcsfs

import pyarrow.parquet as pq
import gcsfs

fs = gcsfs.GCSFileSystem(project=myprojectname)

f = fs.open(myfilepath)
myschema = pq.ParquetFile(f).schema

print(myschema)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-11-14
    • 1970-01-01
    • 2020-07-25
    • 1970-01-01
    • 1970-01-01
    • 2019-10-10
    相关资源
    最近更新 更多