【问题标题】:Seqkit - manipulate regex for parsing IDSeqkit - 操作正则表达式以解析 ID
【发布时间】:2020-09-12 00:57:47
【问题描述】:

我正在尝试使用 seqkit rmdup 从我的蛋白质 fasta 文件中删除重复的序列。但是,重复的只是登录号,而不是描述或序列。请参见下面的示例。

Host_331002_c0_seq1 95 1381 2 + 
Host_331002_c0_seq1 1873 2112 1 +

所以基本上我想设置一个标志,在搜索标识符时将在第一个选项卡处停止(在 Host_331002_c0_seq1 之后停止),否则我的输出文件中不会有任何重复项。这个标志会修复它,但我不确定如何操作正则表达式。

--id-regexp string                regular expression for parsing ID (default "^(\\S+)\\s?")

您能帮忙解决这个问题吗?

我刚开始学习所有的编程语言,我不确定如何改变它。

【问题讨论】:

    标签: regex database duplicates


    【解决方案1】:

    正则表达式匹配任何零个或多个字符,直到第一个制表符,不包括制表符

    ^[^\t]*
    

    proof

    【讨论】:

      猜你喜欢
      • 2013-01-05
      • 1970-01-01
      • 1970-01-01
      • 2016-12-30
      • 2012-10-17
      • 1970-01-01
      • 1970-01-01
      • 2011-03-20
      • 2012-07-08
      相关资源
      最近更新 更多