【发布时间】:2020-03-22 01:18:46
【问题描述】:
我想将来自“fstpackage”包的 fst_table 函数用于大型数据集:https://github.com/fstpackage/fsttable。
devtools::install_github("fstpackage/fsttable")
library(fsttable)
nr_of_rows <- 1e6
x <- data.table::data.table(X = 1:nr_of_rows, Y = LETTERS[1 + (1:nr_of_rows) %% 26])
fst::write_fst(x, "1.fst")
ft <- fst_table("1.fst")
我可以提取创建文件的行和列,但是,是否可以执行以下操作:
ft[X == 1,]
在标准 data.table 中?或者我可以创建这个 data.table 的键以进行快速序列化吗?我的目标是使用列的值提取数据,而不将所有数据集加载到内存中。
【问题讨论】:
-
你也可以尝试使用
RSQLite的索引SQL表。 -
我是
data.table的忠实粉丝,但你考虑过vroom吗? -
要检查 vroom,听起来很有希望。谢谢。
标签: r serialization data.table fst