【发布时间】:2021-06-30 06:40:23
【问题描述】:
我有一个与来自 DrugBank 的药物相关的基因数据集。我希望简单地将所有药库 ID 转换为人类可读的药物名称。 如您所见,我的主要问题是某些基因与多种甚至数百种药物有关。多个药物 ID 在同一个逗号分隔的“列”中 R studio“匹配”或“合并功能”仅适用于每列中的第一个标识符,因此有效地删除了同一列“单元格”中的其余部分。我已经找到了在 Excel 上为我的最佳候选人手动执行此操作的方法,但对于我的 3000 个基因数据集来说这是不现实的。
理想情况下,我想做诸如“文本到列”之类的操作,但在行中,因此每一行都会保留其所有其他值,但只有单元格中的多个药库 ID 中的一个,然后就可以使用匹配功能替换它们。
drugbank 词汇表 (.csv) 如下所示:[DBvocabulary.csv]
DrugBank.ID Common.name
DB00001 来匹卢定
DB00002 西妥昔单抗
DB00003 Dornase alfa
DB00004 Denileukin diftitox
DB00005 依那西普
DB00006 比伐卢定
我的数据集 (.csv) 有 15 列,但重要的是:
[all_ph_active.csv]
Gene.Name DrugBank.ID
F8 DB09130
TCN2 DB00200
LDLR DB09270; DB11251; DB14003
ALB DB00070; DB00137; DB00159; DB00162; DB00214;
欢迎任何建议,提前谢谢!
【问题讨论】:
-
你能用预期的输出更新吗
-
请使用
dput()包含您的数据的reproducible example。 -
请看下面 Joel 如何为
Translation和df提供数据,任何人都可以复制和使用这些数据。尝试以这种可重复的格式提供数据,以便更容易和更快地提供帮助。阅读how to give a reproducible example。 -
谢谢你,Ronak,是的,我看到并设法使用了它。下次会更好地格式化我的问题,谢谢
标签: r replace multiple-columns