【发布时间】:2021-02-01 12:48:23
【问题描述】:
我有一个 .txt 文件,如下所示:
# Explanatory text
# Explanatory text
# ID_1 ID_2
10310 34426
104510 4582343
1032410 5424233
12410 957422
文件中同一行的两个ID用制表符分隔,制表符编码为'\t'
我正在尝试使用数据集中的数字进行一些分析,因此想删除前三行。如何在 Python 中做到这一点? IE。我想生成一个新的数据集,如下所示:
10310 34426
104510 4582343
1032410 5424233
12410 957422
我尝试了以下代码,但没有成功:
f = open(filename,'r')
lines = f.readlines()[3:]
f.close()
它不起作用,因为我得到了这种格式(一个列表,存在 \t 和 \n),而不是我在上面指出的那种:
[10310\t34426\n', '104510\t4582343\n', '1032410\t5424233\n' ... ]
【问题讨论】:
-
如果它以
#开头,你可以忽略它 -
您可能想说的不仅仅是“它不起作用”,
-
readlines从零开始。使用lines = f.readlines()[3:] -
什么不起作用?你得到了什么输出?你期待什么?
-
如果您在 EDA 中使用
pandas,则 pandas.read_csv 中有一个skiprows参数,pandas.read_csv(filepath_or_buffer, delimiter='\t,skiprows=2)