【问题标题】:How to read a text file into a list or an array with Python如何使用 Python 将文本文件读入列表或数组
【发布时间】:2013-01-18 12:49:19
【问题描述】:

我正在尝试将文本文件的行读入 python 中的列表或数组。我只需要能够在创建后单独访问列表或数组中的任何项目。

文本文件格式如下:

0,0,200,0,53,1,0,255,...,0.

... 在上面,实际的文本文件有数百或数千个项目。

我正在使用以下代码尝试将文件读入列表:

text_file = open("filename.dat", "r")
lines = text_file.readlines()
print lines
print len(lines)
text_file.close()

我得到的输出是:

['0,0,200,0,53,1,0,255,...,0.']
1

显然,它将整个文件读入一个仅包含一个项目的列表,而不是单个项目的列表。我做错了什么?

【问题讨论】:

标签: python arrays list text


【解决方案1】:

您必须使用 split() 将字符串拆分为值列表

所以,

lines = text_file.read().split(',')

编辑: 我没有意识到这会有这么大的吸引力。这是一种更惯用的方法。

import csv
with open('filename.csv', 'r') as fd:
    reader = csv.reader(fd)
    for row in reader:
        # do something

【讨论】:

  • 我认为这个答案可能会更好......如果您考虑一个多行 .csv 文件(如 OP 所述),例如,一个包含字母字符 3 行的文件(@987654325 @、d,e,f 等)并应用上述过程,您会得到如下列表:['a', 'b', 'c\nd', 'e', ... ](注意项目 'c\nd')。我想补充一点,尽管存在上述问题,但此过程会折叠单个巨型列表中各个行的数据,这在处理面向记录的数据文件时通常不是我想要的。
  • split 将离开换行符。不要这样做,使用csv 模块或其他一些现有的解析器
【解决方案2】:

你也可以使用 numpy loadtxt 之类的

from numpy import loadtxt
lines = loadtxt("filename.dat", comments="#", delimiter=",", unpack=False)

【讨论】:

  • 我也需要这个。我在 Raspberry Pi 上注意到 numpy 的工作速度非常慢。对于这个应用程序,我恢复为打开一个文件并逐行读取它。
  • 这对于通过dtype : data-type 参数指定格式也很有用。 docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html Pandas read_csv 非常好用。但我没有看到为它指定格式的方法。它正在从我的文件中读取浮点数,而我需要字符串。感谢 @Thiru 展示 loadtxt。
  • 如果 txt 文件包含字符串,则应指定 dtype,因此应类似于 lines = loadtxt("filename.dat", dtype=str, cmets="#", delimiter="," , unpack=False)
【解决方案3】:

所以你想创建一个列表列表...我们需要从一个空列表开始

list_of_lists = []

接下来,我们逐行读取文件内容

with open('data') as f:
    for line in f:
        inner_list = [elt.strip() for elt in line.split(',')]
        # in alternative, if you need to use the file content as numbers
        # inner_list = [int(elt.strip()) for elt in line.split(',')]
        list_of_lists.append(inner_list)

一个常见的用例是列式数据,但我们的存储单元是 文件的行,我们已经一一读取,所以你可能想要转置 你的名单。这可以用以下成语来完成

by_cols = zip(*list_of_lists)

另一个常见的用途是为每一列命名

col_names = ('apples sold', 'pears sold', 'apples revenue', 'pears revenue')
by_names = {}
for i, col_name in enumerate(col_names):
    by_names[col_name] = by_cols[i]

这样你就可以对同质数据项进行操作

 mean_apple_prices = [money/fruits for money, fruits in
                     zip(by_names['apples revenue'], by_names['apples_sold'])]

我写的大部分内容都可以使用标准库中的csv 模块加速。另一个第三方模块是pandas,它可以让您自动化典型数据分析的大部分方面(但有许多依赖项)。


更新虽然在 Python 2 中 zip(*list_of_lists) 返回一个不同的(转置的)列表列表,但在 Python 3 中情况发生了变化,zip(*list_of_lists) 返回一个 zip 对象这是不可下标的。

如果您需要索引访问,您可以使用

by_cols = list(zip(*list_of_lists))

这会为您提供两个 Python 版本中的列表。

另一方面,如果您不需要索引访问并且您想要的只是构建一个按列名索引的字典,那么一个 zip 对象就可以了...

file = open('some_data.csv')
names = get_names(next(file))
columns = zip(*((x.strip() for x in line.split(',')) for line in file)))
d = {}
for name, column in zip(names, columns): d[name] = column

【讨论】:

  • OP 说他们想要一个来自 CSV 的数据列表,而不是“列表列表”。只需使用csv 模块...
【解决方案4】:

这个问题是问如何将文件中的逗号分隔值内容读取到可迭代列表中:

0,0,200,0,53,1,0,255,...,0.

最简单的方法是使用csv 模块,如下所示:

import csv
with open('filename.dat', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',')

现在,您可以像这样轻松地迭代 spamreader

for row in spamreader:
    print(', '.join(row))

更多示例请参见documentation

【讨论】:

    【解决方案5】:

    我有点晚了,但您也可以将文本文件读入数据框,然后将相应的列转换为列表。

    lista=pd.read_csv('path_to_textfile.txt', sep=",", header=None)[0].tolist() 
    

    例子。

    lista=pd.read_csv('data/holdout.txt',sep=',',header=None)[0].tolist()
    

    注意:对应数据框的列名将是整数形式,我选择0,因为我只提取第一列

    【讨论】:

      【解决方案6】:

      这样更好,

       def txt_to_lst(file_path):
      
          try:
              stopword=open(file_path,"r")
              lines = stopword.read().split('\n')
              print(lines)
      
          except Exception as e:
              print(e)
      

      【讨论】:

      • 您的答案可以通过额外的支持信息得到改进。请edit 添加更多详细信息,例如引用或文档,以便其他人可以确认您的答案是正确的。你可以找到更多关于如何写好答案的信息in the help center
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-06-26
      • 2023-03-20
      • 1970-01-01
      • 1970-01-01
      • 2010-12-04
      • 1970-01-01
      • 2018-12-03
      相关资源
      最近更新 更多