【发布时间】:2018-02-08 21:07:06
【问题描述】:
我有一个数据集(对于那里的 compbio 人来说,它是一个 FASTA),其中散布着换行符,它们不能作为数据的分隔符。
有没有办法让熊猫在导入时忽略换行符,使用任何熊猫读取功能?
样本数据:
>ERR899297.10000174 TGTAATATTGCCTGTAGCGGGAGTTGTTGTCTCAGGATCAGCATTATATCTCAATTGCATGAATCATCGTATTAATGC TATCAAGATCAGCCGATTCT
每个条目都由“>”分隔 数据由换行符分割(仅限于,但实际上并未在全球范围内得到尊重 每行 80 个字符)
【问题讨论】:
-
查看文档pandas.pydata.org/pandas-docs/stable/generated/…。特别是
skip_blank_lines参数 -
能否将数据表示为字符串,然后替换换行符?
-
data is 40GB+ 将数据表示为字符串并不理想。 python迭代也不太理想。