【发布时间】:2013-08-21 21:02:02
【问题描述】:
我的数据如下所示:
-HI5UHB101EPGLJ rank=0000024 x=1813.0 y=437.0 length=81
ACGTAGATCGTGTAGCTGAGGATGTTGACAACCATGTGGACAGAGCCTCACCATCAACAT
CCTCAGCTACACGATCTGCGT
-HI5UHB101BDVPE rank=0000032 x=451.5 y=48.0 length=73
ACGTAGATCGTCTTGAGTGATTACAGATCTAATACAATGTGCAGTCTAGCTAGATGTTAT
TCTATATATATAC
-HI5UHB101AL8KC rank=0000049 x=136.0 y=586.0 length=58
ACGTAGATCGTCTCGGCTAGTAGACGAGCCATCGTCTACTAGCCGAGACGATCTGCGT
如何将其制成如下所示的 csv 表:
'HI5UHB101EPGLJ', 'rank=0000024', 'x=1813.0', 'y=437.0', 'length=81','ACGTAGATCGTGTAGCTGAGGATGTTGACAACCATGTGGACAGAGCCTCACCATCAACATCCTCAGCTACACGATCTGCGT'
'HI5UHB101BDVPE', 'rank=0000032', 'x=451.5', 'y=48.0', 'length=73', 'ACGTAGATCGTCTTGAGTGATTACAGATCTAATACAATGTGCAGTCTAGCTAGATGTTATTCTATATATATAC'
'HI5UHB101AL8KC', 'rank=0000049', 'x=136.0', 'y=586.0', 'length=58', 'ACGTAGATCGTCTCGGCTAGTAGACGAGCCATCGTCTACTAGCCGAGACGATCTGCGT'
我的主要问题是“长度”之后有一个换行符(\n),然后当我需要它们加入时,字母序列本身在它们之间有换行符(\n)。
字母序列有不同的长度,导致序列行数可变。
任何帮助将不胜感激。这将在一个巨大的文件上运行。
【问题讨论】:
-
json 似乎是一种更自然的序列化格式,不是吗?
-
@roippi:为什么? CSV 完全可用。
-
您可能会发现 Biopython 库很有用,尤其是 SeqIO:biopython.org/wiki/SeqIO 我不能立即识别您的格式,但如果它是标准格式,那么该库中可能有工具可以读取它。
-
请提供示例代码!
-
@MartijnPieters 他的属性已经命名,耸耸肩。如果他将来需要操作序列化的数据,他会通过使用 csv 为自己做更多的工作。过去没有什么“错”。