【问题标题】:Reading/writing pyarrow tensors from/to parquet files从/向镶木地板文件读取/写入 pyarrow 张量
【发布时间】:2018-03-29 09:26:07
【问题描述】:

pyarrow 中,将pyarrow.Tensor(例如从numpy.ndarray 创建)写入Parquet 文件的建议方法是什么?甚至可以不用经过pyarrow.Tablepandas.DataFrame

【问题讨论】:

  • 已经有一段时间了。你有没有找到一些有趣的方法来实现这个 Martin?

标签: numpy parquet tensor pyarrow


【解决方案1】:

Parquet 格式针对具有嵌套数据的表进行了优化,即它期望数据表示为命名列。这与 n 维列的想法有点相反。对于张量,最好选择不同的格式。

【讨论】:

    【解决方案2】:

    Parquet 的数据模型是表格的,因此张量/ndarray 必须在某处转换为表格形式。我们没有任何内置的便利功能来帮助解决这个问题,但请随时在问题跟踪器 https://issues.apache.org/jira/projects/ARROW

    上提出特定的功能请求

    【讨论】:

    猜你喜欢
    • 2018-05-06
    • 2021-10-28
    • 2019-10-27
    • 2020-03-05
    • 2021-08-27
    • 1970-01-01
    • 2019-06-02
    • 2017-12-18
    • 2019-04-07
    相关资源
    最近更新 更多