Seqkit - 操作正则表达式以解析 ID答案

【问题标题】：Seqkit - manipulate regex for parsing IDSeqkit - 操作正则表达式以解析 ID
【发布时间】：2020-09-12 00:57:47
【问题描述】：

我正在尝试使用 seqkit rmdup 从我的蛋白质 fasta 文件中删除重复的序列。但是，重复的只是登录号，而不是描述或序列。请参见下面的示例。

Host_331002_c0_seq1 95 1381 2 + 
Host_331002_c0_seq1 1873 2112 1 +

所以基本上我想设置一个标志，在搜索标识符时将在第一个选项卡处停止（在 Host_331002_c0_seq1 之后停止），否则我的输出文件中不会有任何重复项。这个标志会修复它，但我不确定如何操作正则表达式。

--id-regexp string                regular expression for parsing ID (default "^(\\S+)\\s?")

您能帮忙解决这个问题吗？

我刚开始学习所有的编程语言，我不确定如何改变它。

【问题讨论】：

【解决方案1】：

正则表达式匹配任何零个或多个字符，直到第一个制表符，不包括制表符

^[^\t]*

见proof。

【讨论】：