【发布时间】:2019-05-16 06:11:09
【问题描述】:
我有一大组(5-1000 万)字符串,其中包含受限的核苷酸符号(A、T、C 和 G)字母表以及通配符 N。每个字符串都有一个与之关联的整数。
我想找到所有唯一的字符串,并为每个字符串求和它们的整数值。一组相等字符串的“代表”字符串应该是具有最高整数值的字符串。例如,给定:
NTG 9
NAG 6
ANG 5
TTT 2
ATG 2
我希望输出是:
NTG 14
NAG 6
ATG 2
TTT 2
对于这种大小的数据集,成对比较是不可行的。有什么想法吗?
【问题讨论】:
-
这里的合并规则我不太清楚,比如为什么不合并ATG和NTG?你选择 ANG 是因为它的整数值更大?
标签: data-structures bioinformatics