【问题标题】:Cross read parquet files between R and Python在 R 和 Python 之间交叉读取镶木地板文件
【发布时间】:2018-01-08 01:43:24
【问题描述】:

我们生成了一个 parquet 文件,一个在 Dask (Python) 中,另一个在 R Drill 中(使用 Sergeant 数据包)。他们使用 parquet see my other parquet question 的不同实现

我们无法交叉读取文件(python 无法读取 R 文件,反之亦然)。
在 R 环境中读取 Python parquet 文件时,我们收到以下错误:system error: Illegalstatexception: UTF8 can only annotate binary filed
在 Dask 中读取 R/Drill parquet 文件时,我们得到一个 FileNotFoundError: [Error 2] no such file or directory ...\_metadata(这是不言自明的)。
在 R 和 Python 之间交叉读取镶木地板文件的选项有哪些?

我们将不胜感激。

【问题讨论】:

    标签: r parquet dask


    【解决方案1】:

    要使用 fastparquet/dask 读取类似钻的 parquet 数据集,您需要传递文件名列表,例如,

    files = glob.glob('mydata/*/*.parquet')
    df = dd.read_parquet(files)
    

    从另一个方向走的错误可能是一个错误,或者(从你的另一个问题收集)可能表明你使用了固定长度的字符串,但钻/R 不支持它们。

    【讨论】:

      猜你喜欢
      • 2017-12-27
      • 2018-01-07
      • 2021-01-12
      • 2019-08-04
      • 2022-06-16
      • 2019-09-23
      • 2023-02-19
      • 2015-06-21
      • 2022-11-24
      相关资源
      最近更新 更多