【问题标题】:Remove genes duplicates with unique ENSG ID删除具有唯一 ENSG ID 的基因重复
【发布时间】:2021-05-21 12:03:02
【问题描述】:

我是 R 的初学者。我有一个 tibble data.frame:它是一个带有 EntrezgeneID、GeneSymbol、Gene description 和 ENSG_ID 的基因列表。 我想删除与唯一 ENSG ID 相关的基因重复。 例如,在我的数据框中发现 AKRC1 有 2 个 ENSG id,其中一个与基因 AKRC2 相同。

初始文件

我试图删除重复的但问题是我将 AKRC1 和 AKRC2 保留了相同的 ENSG ID。 这是使用的代码:

#确定非重复基因的索引

non_duplicated_idx <- which(duplicated(annotation1$GeneSymbol_v85) == FALSE)

#使用索引只返回不重复的基因

annotation1 <- annotation1 [non_duplicated_idx, ]

重复的基因被删除,但在这里,例如,AKRC1 与 AKRC2 的 ENSG_ID 保持一致。

删除重复项后

是否可以删除具有唯一 ENSG_ID 的重复项? (这里比如我想用ENSG00000187134保留AKRC1)

非常感谢您的帮助, 杰西卡

【问题讨论】:

  • 这里更大的问题是:为什么您的数据首先包含不正确的 Ensembl 基因 ID? 是需要解决的问题。
  • 图片不是共享数据/代码的正确方式。以更易于复制的可复制格式添加它们。阅读how to give a reproducible example

标签: r


【解决方案1】:

只需将df 替换为您的数据框的名称:

df[!duplicated(df$GeneSymbol_v85), ]

并查看哪些是重复的:

df[duplicated(df$GeneSymbol_v85), ]

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-04-02
    • 1970-01-01
    • 2017-12-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多