【问题标题】:reading a text file columnwise and storing in a list in python按列读取文本文件并存储在 python 列表中
【发布时间】:2023-01-19 21:57:24
【问题描述】:

我有一个以下格式的文本文件:

a,b,c,d,
1,1,2,3,
4,5,6,7,
1,2,5,7,
6,9,8,5,

我怎样才能有效地将它读入列表以获得以下内容 输出?

list=[[1,4,1,6],[1,5,2,9],[2,6,5,8],[3,7,7,5]]

【问题讨论】:

    标签: python python-2.7


    【解决方案1】:

    假设文件名为spam.txt

    $ cat spam.txt
    a,b,c,d,
    1,1,2,3,
    4,5,6,7,
    1,2,5,7,
    6,9,8,5,    
    

    使用list comprehensionszip() 内置函数,您可以编写如下程序:

    >>> with open('spam.txt', 'r') as file:
    ...     file.readline() # skip the first line
    ...     rows = [[int(x) for x in line.split(',')[:-1]] for line in file]
    ...     cols = [list(col) for col in zip(*rows)]
    ... 
    'a,b,c,d,
    '
    >>> rows
    [[1, 1, 2, 3], [4, 5, 6, 7], [1, 2, 5, 7], [6, 9, 8, 5]]
    >>> cols
    [[1, 4, 1, 6], [1, 5, 2, 9], [2, 6, 5, 8], [3, 7, 7, 5]]
    

    此外,zip(*rows) 是基于 unpacking argument lists 的,它将列表或元组解包,以便其元素可以作为单独的位置参数传递给函数。换句话说,zip(*rows) 缩减为 zip([1, 1, 2, 3], [4, 5, 6, 7], [1, 2, 5, 7], [6, 9, 8, 5])

    编辑:

    这是一个基于 NumPy 的版本,供参考:

    >>> import numpy as np
    >>> with open('spam.txt', 'r') as file:
    ...     ncols = len(file.readline().split(',')) - 1
    ...     data = np.fromiter((int(v) for line in file for v in line.split(',')[:-1]), int, count=-1)
    ...     cols = data.reshape(data.size / ncols, ncols).transpose()
    ...
    >>> cols
    array([[1, 4, 1, 6],
           [1, 5, 2, 9],
           [2, 6, 5, 8],
           [3, 7, 7, 5]])
    

    【讨论】:

    • 是的,它的解释很清楚...因为我正在处理大文本文件,列表“行”或“列”的大小将很大,并且对于 500 MB 输入文件,上述代码消耗的 RAM 约为 1.4 GB。是有什么优化的方法可以做到这一点..?
    • @JagannathKs 这取决于你的目标。最后你打算用这些列做什么?
    • 我将为 2 个不同的文件获得 2 个这样的列,并根据特定条件处理它们......无论如何我都会尝试优化它。谢谢你的回复
    【解决方案2】:

    您可以尝试以下代码:

    from numpy import*
    
    x0 = []
    for line in file('yourfile.txt'):
        line = line.split()
        x = line[1]
       x0.append(x)
    
    for i in range(len(x0)):
    print x0[i]
    

    这里第一列附加到 x0[]。您可以以类似的方式附加其他列。

    【讨论】:

    • 为什么这里需要numpy
    • numpy 包含一个强大的 N 维数组对象,也可以用作通用数据的高效多维容器。可以定义任意数据类型。这使得 numpy 可以无缝快速地与各种数据库集成。
    • 您的示例中在哪里使用它?
    【解决方案3】:

    您可以使用 data_py 包从文件中读取列式数据。 使用安装这个包

    pip install data-py==0.0.1
    

    例子

    from data_py import datafile
    df1=datafile("C:/Folder/SubFolder/data-file-name.txt")
    df1.separator=","
    [Col1,Col2,Col3,Col4,Col5]=["","","","",""]
    [Col1,Col2,Col3,Col4,Col5]=df1.read([Col1,Col2,Col3,Col4,Col5],lineNumber)
    print(Col1,Col2,Col3,Col4,Col5)
    

    详情请点击链接https://www.respt.in/p/python-package-datapy.html

    【讨论】:

      猜你喜欢
      • 2020-06-05
      • 2018-02-01
      • 1970-01-01
      • 1970-01-01
      • 2016-07-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-07-14
      相关资源
      最近更新 更多