【发布时间】:2016-10-13 03:25:07
【问题描述】:
我有大约 800 万行数据框,如下所示:
Trevor Brown Chris Coghlan Starlin Castro Kelby Tomlinson Brandon Crawford Brandon Crawford Kelby Tomlinson Brandon Crawford
Buster Posey Chris Coghlan Starlin Castro Kelby Tomlinson Brandon Crawford Brandon Crawford Kelby Tomlinson Brandon Crawford
.
.
.
.
Trevor Brown Brandon Crawford Starlin Castro Kelby Tomlinson Brandon Crawford Brandon Crawford Kelby Tomlinson Brandon Crawford
很多行都有重复的名称,我希望将其删除。我发现很难对每一行进行矢量化然后检查是否重复,因为它需要很长时间,因为数据框有 800 万行。有没有更快的方法来完成这项任务?
【问题讨论】:
-
每行有一个字符串吗?
-
每行 16 个字符串。它是 8 x 800 万的数据帧。每行八个全名
-
你可以试试
apply和unique -
那么什么样的apply函数(如lapply、rapply、sapply等)适合每一行数据框呢?
-
所以,如果我有这个权利:你有一个 8 列的 data.frame,每列都有一个“first last”名称格式的名称。您想删除名称“重复”的行。是否是“重复”行,其中 8 个名称中的每一个都与另一行相同,并且在相同的列中?也就是说,相同的名称但列顺序不同会不是相同的吗?
标签: r