【发布时间】:2021-08-02 16:28:57
【问题描述】:
我有一个包含 50K 列、500K 行的矩阵,我想在不使用太多内存(例如内存映射)的情况下快速按列名/索引对其进行子集化。大多数列是 {NA,1,2},少数 (1%) 列是定量或字符串。 R 中的哪些文件格式/框架最适合执行此操作?
我以为我可以为此使用羽毛,但它似乎加载了整个文件并且使用的内存几乎与 data.table 一样多。等效,即使我设置为 as_data_frame=F。
f="/path/to/matrix.50Kcolums.500Krows.tsv"
df <- data.table::fread(f) #
arrow::write_feather(df,paste0(f,".feather"))
df <- read_feather(f.arrow, as_data_frame = FALSE) # uses almost as much memory as fread()
df <- as.data.frame(df[,grep("columns_with_some_name", names(df))]) # this is what I need it to do fast and without using much memory.
有什么想法吗?
【问题讨论】:
-
不要对此类数据使用文件,使用数据库系统。
-
我同意。我想知道是否有允许这样做的文件格式。什么数据库格式可以很好地处理这么多列?我读到 SQL(lite) 可能不适合这么多列。
-
你可以看看disk.frame,测试here
-
SQLite 本质上是一个围绕平面文件的数据库包装器。当您想要一个数据库 API(即:SQL)而没有实际的数据库系统时,这是一个方便的解决方案。你是对的,SQL 通常可以更好地处理关系、规范化的数据,而你的数据是极度非规范化的。您可能想查看 NoSQL 格式,例如 Google Bigtable 或类似格式。传统上,数据仓库在这里也可能是一种解决方案,但我不确定它是否仍然被大量使用。其实我可能错了:Feather/HDF5/... 可能比这里的数据库更适合。
-
您是否尝试过使用
col_select参数仅选择您对read_feather()感兴趣的列?
标签: r memory-mapped-files apache-arrow feather