删除具有唯一 ENSG ID 的基因重复答案

【问题标题】：Remove genes duplicates with unique ENSG ID删除具有唯一 ENSG ID 的基因重复
【发布时间】：2021-05-21 12:03:02
【问题描述】：

我是 R 的初学者。我有一个 tibble data.frame：它是一个带有 EntrezgeneID、GeneSymbol、Gene description 和 ENSG_ID 的基因列表。我想删除与唯一 ENSG ID 相关的基因重复。例如，在我的数据框中发现 AKRC1 有 2 个 ENSG id，其中一个与基因 AKRC2 相同。

初始文件

我试图删除重复的但问题是我将 AKRC1 和 AKRC2 保留了相同的 ENSG ID。这是使用的代码：

#确定非重复基因的索引

non_duplicated_idx <- which(duplicated(annotation1$GeneSymbol_v85) == FALSE)

#使用索引只返回不重复的基因

annotation1 <- annotation1 [non_duplicated_idx, ]

重复的基因被删除，但在这里，例如，AKRC1 与 AKRC2 的 ENSG_ID 保持一致。

删除重复项后

是否可以删除具有唯一 ENSG_ID 的重复项？（这里比如我想用ENSG00000187134保留AKRC1）

非常感谢您的帮助，杰西卡

【问题讨论】：

这里更大的问题是：为什么您的数据首先包含不正确的 Ensembl 基因 ID？那是需要解决的问题。
图片不是共享数据/代码的正确方式。以更易于复制的可复制格式添加它们。阅读how to give a reproducible example。

标签： r

【解决方案1】：

只需将df 替换为您的数据框的名称：

df[!duplicated(df$GeneSymbol_v85), ]

并查看哪些是重复的：

df[duplicated(df$GeneSymbol_v85), ]

【讨论】：