【发布时间】:2019-07-06 10:15:29
【问题描述】:
如何读取不同长度行的数据文件? 我正在尝试加载一个 tsv(制表符分隔)文件,每行应包含 19 个属性。但有些行有 4 个属性,下一行有其他属性。 每条记录都有所有 19 个属性,它们只是有一个不规则的换行符。 如何处理这个文件?我想将它们作为数据集存储在表中,然后我可以使用 iloc 获取合适的列表。
我运行了这段代码,但得到了错误 “错误标记数据。C 错误:预计第 32770 行中的 16 个字段,看到 19”
import numpy as np
import pandas as pd
dataset = pd.read_csv('data1.tsv',sep="\t",header=None)
T = dataset.iloc[:,8].values
文件就像:
(line1)1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
(line2)1 2 3 4
(line3)5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
(line4)1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
...
【问题讨论】:
-
这很奇怪。更常见的是换行符嵌入到可能出现问题的字段中。但在这种情况下,解决它的正确方法是控制 csv 文件包含引用或转义字符的位置。
标签: python-3.x csv