【发布时间】:2019-02-23 23:12:28
【问题描述】:
参考问题:R: stacking up values from rows of a data frame
嗨,
我有一个大型 data.table(100 万行)。每行包含 30 个值,前四个标识一个对象。许多行可能具有相同的前四个字段,这意味着它们被引用到同一个对象。其余 26 个字段可能是数字或“NA”。
关键是引用同一对象的许多行(或者,具有相同的前四个字段)将具有不同定义的其余 26 个字段,并且通常包含大量 NA 和只有少数数值。
我想将单个对象的所有多个引用(行)合并到一个行中,就像 dplyr::coalesce (x,y) 会超过 2 个向量一样。我试图将所有子集识别到表中,并使用一些循环逐行合并它们,但它非常慢。是否有更快的替代方案可以有效地处理大型数据表(约 100 万行,每行 30 个字段)?
非常感谢。
【问题讨论】:
标签: r dataframe datatable dplyr