按列读取文本文件并存储在 python 列表中答案

【问题标题】：reading a text file columnwise and storing in a list in python按列读取文本文件并存储在 python 列表中
【发布时间】：2023-01-19 21:57:24
【问题描述】：

我有一个以下格式的文本文件：

a,b,c,d,
1,1,2,3,
4,5,6,7,
1,2,5,7,
6,9,8,5,

我怎样才能有效地将它读入列表以获得以下内容输出？

list=[[1,4,1,6],[1,5,2,9],[2,6,5,8],[3,7,7,5]]

【问题讨论】：

标签： python python-2.7

【解决方案1】：

假设文件名为spam.txt：

$ cat spam.txt
a,b,c,d,
1,1,2,3,
4,5,6,7,
1,2,5,7,
6,9,8,5,

使用list comprehensions 和zip() 内置函数，您可以编写如下程序：

>>> with open('spam.txt', 'r') as file:
...     file.readline() # skip the first line
...     rows = [[int(x) for x in line.split(',')[:-1]] for line in file]
...     cols = [list(col) for col in zip(*rows)]
... 
'a,b,c,d,
'
>>> rows
[[1, 1, 2, 3], [4, 5, 6, 7], [1, 2, 5, 7], [6, 9, 8, 5]]
>>> cols
[[1, 4, 1, 6], [1, 5, 2, 9], [2, 6, 5, 8], [3, 7, 7, 5]]

此外，zip(*rows) 是基于 unpacking argument lists 的，它将列表或元组解包，以便其元素可以作为单独的位置参数传递给函数。换句话说，zip(*rows) 缩减为 zip([1, 1, 2, 3], [4, 5, 6, 7], [1, 2, 5, 7], [6, 9, 8, 5])。

编辑：

这是一个基于 NumPy 的版本，供参考：

>>> import numpy as np
>>> with open('spam.txt', 'r') as file:
...     ncols = len(file.readline().split(',')) - 1
...     data = np.fromiter((int(v) for line in file for v in line.split(',')[:-1]), int, count=-1)
...     cols = data.reshape(data.size / ncols, ncols).transpose()
...
>>> cols
array([[1, 4, 1, 6],
       [1, 5, 2, 9],
       [2, 6, 5, 8],
       [3, 7, 7, 5]])

【讨论】：

是的，它的解释很清楚...因为我正在处理大文本文件，列表“行”或“列”的大小将很大，并且对于 500 MB 输入文件，上述代码消耗的 RAM 约为 1.4 GB。是有什么优化的方法可以做到这一点..？
@JagannathKs 这取决于你的目标。最后你打算用这些列做什么？
我将为 2 个不同的文件获得 2 个这样的列，并根据特定条件处理它们......无论如何我都会尝试优化它。谢谢你的回复

【解决方案2】：

您可以尝试以下代码：

from numpy import*

x0 = []
for line in file('yourfile.txt'):
    line = line.split()
    x = line[1]
   x0.append(x)

for i in range(len(x0)):
print x0[i]

这里第一列附加到 x0[]。您可以以类似的方式附加其他列。

【讨论】：

为什么这里需要numpy？
numpy 包含一个强大的 N 维数组对象，也可以用作通用数据的高效多维容器。可以定义任意数据类型。这使得 numpy 可以无缝快速地与各种数据库集成。
您的示例中在哪里使用它？

【解决方案3】：

您可以使用 data_py 包从文件中读取列式数据。使用安装这个包

pip install data-py==0.0.1

例子

from data_py import datafile
df1=datafile("C:/Folder/SubFolder/data-file-name.txt")
df1.separator=","
[Col1,Col2,Col3,Col4,Col5]=["","","","",""]
[Col1,Col2,Col3,Col4,Col5]=df1.read([Col1,Col2,Col3,Col4,Col5],lineNumber)
print(Col1,Col2,Col3,Col4,Col5)

详情请点击链接https://www.respt.in/p/python-package-datapy.html

【讨论】：