【发布时间】:2021-09-02 00:26:18
【问题描述】:
我希望使用 R 中的箭头包从镶木地板文件(带分区)中仅获取列名。我希望只有列名的向量。我可以使用 collect 来做到这一点,但是使用更大的多分区和多文件镶木地板需要比预期更长的时间。这是我所拥有并希望实现的示例。
使用分区创建镶木地板(有些可能有多个分区)
arrow::write_dataset(mtcars, "C:/Data/parquet/mtcars", format = "parquet", partitioning = c("cyl"))
当前获取 parquet 列名称的方法
colnames(arrow::open_dataset(sources = "C:/Data/parquet/mtcars") %>%
dplyr::collect())
colname 与 collect 一起使用的结果
[1] "mpg" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" "carb" "cyl"
我觉得有一种更有效的方法可以在不进行收集的情况下获取 parquet 列名称。最终目标是有一个像上面这样的向量。对选项和想法持开放态度。
【问题讨论】: