【发布时间】:2020-09-12 00:57:47
【问题描述】:
我正在尝试使用 seqkit rmdup 从我的蛋白质 fasta 文件中删除重复的序列。但是,重复的只是登录号,而不是描述或序列。请参见下面的示例。
Host_331002_c0_seq1 95 1381 2 +
Host_331002_c0_seq1 1873 2112 1 +
所以基本上我想设置一个标志,在搜索标识符时将在第一个选项卡处停止(在 Host_331002_c0_seq1 之后停止),否则我的输出文件中不会有任何重复项。这个标志会修复它,但我不确定如何操作正则表达式。
--id-regexp string regular expression for parsing ID (default "^(\\S+)\\s?")
您能帮忙解决这个问题吗?
我刚开始学习所有的编程语言,我不确定如何改变它。
【问题讨论】:
标签: regex database duplicates