【发布时间】:2018-03-29 09:26:07
【问题描述】:
在pyarrow 中,将pyarrow.Tensor(例如从numpy.ndarray 创建)写入Parquet 文件的建议方法是什么?甚至可以不用经过pyarrow.Table和pandas.DataFrame?
【问题讨论】:
-
已经有一段时间了。你有没有找到一些有趣的方法来实现这个 Martin?
标签: numpy parquet tensor pyarrow
在pyarrow 中,将pyarrow.Tensor(例如从numpy.ndarray 创建)写入Parquet 文件的建议方法是什么?甚至可以不用经过pyarrow.Table和pandas.DataFrame?
【问题讨论】:
标签: numpy parquet tensor pyarrow
Parquet 格式针对具有嵌套数据的表进行了优化,即它期望数据表示为命名列。这与 n 维列的想法有点相反。对于张量,最好选择不同的格式。
【讨论】:
Parquet 的数据模型是表格的,因此张量/ndarray 必须在某处转换为表格形式。我们没有任何内置的便利功能来帮助解决这个问题,但请随时在问题跟踪器 https://issues.apache.org/jira/projects/ARROW
上提出特定的功能请求【讨论】: