【发布时间】:2011-08-14 09:44:49
【问题描述】:
我正在编写一个程序,它必须计算一组字符串的multiple sequence alignment。我正在考虑在 Python 中执行此操作,但如果更实用的话,我可以使用外部软件或其他语言。数据不是特别大,我没有很强的性能要求,我可以容忍近似值(即我只需要找到一个足够好的对齐方式)。唯一的问题是字符串是常规字符串(即 UTF-8 字符串可能带有应该被视为常规字符的换行符);它们不是 DNA 序列或蛋白质序列。
我可以为生物信息学中的常见案例找到大量工具和信息,这些工具和信息具有特定复杂的文件格式和许多我不需要的功能,但出乎意料的是,很难找到简单案例的软件、库或示例代码的字符串。我可能可以针对这个问题重新实现许多算法中的任何一种,或者将我的字符串编码为 DNA,但必须有更好的方法。你知道有什么解决办法吗?
谢谢!
【问题讨论】:
-
计算是什么意思?您是否正在尝试获得最佳对齐方式?
-
是的,或者相当好的对齐方式(近似值还可以)。
-
您也在寻找更好的差异工具吗?
-
@Chris_Rands:谢谢!事实上,它是为 Debian 打包的,并且似乎可以用于一个简单的示例。但它有一些缺点:空格被删除(因此它们需要单独处理),并且不支持 UTF-8(您需要转换为 Latin-1,这似乎是实验性的)。感谢您指出了这一点!请不要犹豫,将其发布为答案。
-
您找到解决方案了吗?如果你这样做了 - 请发布你的代码:)
标签: python string text alignment sequence