【发布时间】:2019-04-09 05:34:18
【问题描述】:
我有非常长的字符串向量(肽)。
head(unique(pseq_list))
#[1] "GPPNHHMGPMSER" "SLSGQCHHHGENLR" "HSSGQDKPHETYR"
#"DHDKPHQQSDK" "AHMESDK" "HISESHEK"
我想检查这个向量中是否是由另外两个肽产生的肽。例如,如果有"AHMESDK"、"AHME" 和"SDK" 我想知道。我尝试了grepl 函数,但可能我的向量很长(?)。另外,如何保存这样的结果?
如果很难验证是否存在"AHMESDK" = "AHME" + "SDK",那么至少知道向量中是否存在包含其他肽的肽(例如"HISESHEK" 和"SES")。
@quant 在 cmets 中提供的上下文:
作为没有生物学背景的每个人的说明。
肽是大分子。我们的身体可以通过将不同的氨基酸“粘合”在一起来组成这些大分子。粘合在一起的氨基酸序列称为肽的一级结构,在生物信息学中,通常使用单字母代码(参见rpeptide.com)来表示一级结构。
所以AHMESDK简单来说就是由丙氨酸、组氨酸等组成的肽。
【问题讨论】:
-
您能否包括您已经尝试过的对
grepl的调用?不知道你在这里的意思。搜索AHMESDK不意味着AHME和SDK连接在一起吗? -
请提供可重现的示例和预期输出。不是很清楚。
标签: r regex vector bioinformatics