【发布时间】:2019-05-02 15:32:36
【问题描述】:
我有一个格式如下的文本文件:
_data
loop_
_rlnName
_rlndatainfo1
_rlndatainfo2
_rlndatainfo3
Name datainfo1 datainfo2 datainfo3
在数据和循环可以忽略的地方,任何带有_rln的东西都是标题,然后所有数据都在下面的行中。
可以有随机数量的列和标题,但这是文件的一般布局。数据并不总是以相同的顺序排列,但总是会正确组织,因为标题中的每一行都是数据字段中的列号。出于这个原因,我想编写一个通用函数,我总是可以使用它来处理这些文件,在这些文件中,我将数据放入数据框中,并循环遍历带有正确标题的每个数据框列的标题。这将让我只索引我需要的任何列,并使处理速度更快。
到目前为止,我只是在尝试遍历标题,以便将它们放在一个列表中为数据框命名,然后找出从哪里开始数据行。
import pandas as pd
data = pd.read_csv('text.txt')
titles = []
for line in data.index:
if '_rln' in data.iloc[line]:
titles.append(data.iloc[line])
print(titles)
目前正在创建一个空列表。我一定是在做一些愚蠢的事情,因为我对 pandas 没有太多经验,所以我已经推迟了这么久,所以任何帮助都将不胜感激。
【问题讨论】: