【发布时间】:2021-05-21 12:03:02
【问题描述】:
我是 R 的初学者。我有一个 tibble data.frame:它是一个带有 EntrezgeneID、GeneSymbol、Gene description 和 ENSG_ID 的基因列表。 我想删除与唯一 ENSG ID 相关的基因重复。 例如,在我的数据框中发现 AKRC1 有 2 个 ENSG id,其中一个与基因 AKRC2 相同。
初始文件
我试图删除重复的但问题是我将 AKRC1 和 AKRC2 保留了相同的 ENSG ID。 这是使用的代码:
#确定非重复基因的索引
non_duplicated_idx <- which(duplicated(annotation1$GeneSymbol_v85) == FALSE)
#使用索引只返回不重复的基因
annotation1 <- annotation1 [non_duplicated_idx, ]
重复的基因被删除,但在这里,例如,AKRC1 与 AKRC2 的 ENSG_ID 保持一致。
删除重复项后
是否可以删除具有唯一 ENSG_ID 的重复项? (这里比如我想用ENSG00000187134保留AKRC1)
非常感谢您的帮助, 杰西卡
【问题讨论】:
-
这里更大的问题是:为什么您的数据首先包含不正确的 Ensembl 基因 ID? 那是需要解决的问题。
-
图片不是共享数据/代码的正确方式。以更易于复制的可复制格式添加它们。阅读how to give a reproducible example。
标签: r