【问题标题】:How to read a large text file avoiding reading line-by-line :: Python如何读取大文本文件避免逐行读取 :: Python
【发布时间】:2020-11-12 11:23:34
【问题描述】:

我有一个大数据文件 (N,4),我正在逐行映射。我的文件是 10 GB,下面给出了一个简单的实现。尽管以下工作有效,但需要大量时间。

我想实现这个逻辑,以便直接读取文本文件并且我可以访问元素。此后,我需要根据第 2 列元素对整个(映射的)文件进行排序。

我在网上看到的示例假设数据量较小 (d) 并使用 f[:] = d[:],但我不能这样做,因为 d 在我的情况下很大并且会占用我的 RAM。

PS:我知道如何使用np.loadtxt 加载文件并使用argsort 对其进行排序,但是对于 GB 文件大小,该逻辑失败(内存错误)。任何方向都将不胜感激。

nrows, ncols = 20000000, 4  # nrows is really larger than this no. this is just for illustration
f = np.memmap('memmapped.dat', dtype=np.float32,
              mode='w+', shape=(nrows, ncols))

filename = "my_file.txt"

with open(filename) as file:

    for i, line in enumerate(file):
        floats = [float(x) for x in line.split(',')]
        f[i, :] = floats
del f

【问题讨论】:

  • 如果你可以拆分文件,你也许可以使用 dask。
  • @user13815479 nrows, ncols 在您的示例中表示 320 MB 的数据,应该很容易放入内存中。它到底有多大?
  • @James:谢谢,我是新手。你能详细说明一下吗?如果您可以分享 MWE,我将不胜感激。
  • @Han-KwangNienhuys:这只是一个简单的例子来展示我的逻辑。我的文本文件非常大(10 GB),因此 N 也很大。
  • loadtxt(和genfromtxt)逐行读取csv文件,在列表(或数组)列表中累积值,最后转换为数组。 pandaspd.read_csv 具有基于 c 的模式,速度更快 - 但结果是一个数据帧。

标签: python numpy hdf5 h5py numpy-memmap


【解决方案1】:

编辑:与其自己动手分块,不如使用 pandas 的分块功能,这比 numpy 的 load_txt 快得多。

import numpy as np
import pandas as pd

## create csv file for testing
np.random.seed(1)
nrows, ncols = 100000, 4
data = np.random.uniform(size=(nrows, ncols))
np.savetxt('bigdata.csv', data, delimiter=',')

## read it back
chunk_rows = 12345
# Replace np.empty by np.memmap array for large datasets.
odata = np.empty((nrows, ncols), dtype=np.float32)
oindex = 0
chunks = pd.read_csv('bigdata.csv', chunksize=chunk_rows, 
                     names=['a', 'b', 'c', 'd'])
for chunk in chunks:
    m, _ = chunk.shape
    odata[oindex:oindex+m, :] = chunk
    oindex += m

# check that it worked correctly.
assert np.allclose(data, odata, atol=1e-7)

分块模式下的pd.read_csv函数返回一个可以在循环中使用的特殊对象,例如for chunk in chunks:;在每次迭代中,它将读取文件的一部分并将其内容作为 pandas DataFrame 返回,在这种情况下可以将其视为 numpy 数组。需要names参数,防止它把csv文件的第一行当作列名。

下面的旧答案

numpy.loadtxt 函数使用文件名或将在构造中的循环中返回行的内容,例如:

for line in f: 
   do_something()

它甚至不需要伪装成一个文件;一个字符串列表就可以了!

我们可以读取小到足以放入内存的文件块,并将成批的行提供给np.loadtxt

def get_file_lines(fname, seek, maxlen):
    """Read lines from a section of a file.
    
    Parameters:
        
    - fname: filename
    - seek: start position in the file
    - maxlen: maximum length (bytes) to read
    
    Return:
        
    - lines: list of lines (only entire lines).
    - seek_end: seek position at end of this chunk.
    
    Reference: https://stackoverflow.com/a/63043614/6228891
    Copying: any of CC-BY-SA, CC-BY, GPL, BSD, LPGL
    Author: Han-Kwang Nienhuys
    """
    f = open(fname, 'rb') # binary for Windows \r\n line endings
    f.seek(seek)
    buf = f.read(maxlen)
    n = len(buf)
    if n == 0:
        return [], seek
    
    # find a newline near the end
    for i in range(min(10000, n)):
        if buf[-i] == 0x0a:
            # newline
            buflen = n - i + 1
            lines = buf[:buflen].decode('utf-8').split('\n')
            seek_end = seek + buflen
            return lines, seek_end
    else:
        raise ValueError('Could not find end of line')

import numpy as np

## create csv file for testing
np.random.seed(1)
nrows, ncols = 10000, 4

data = np.random.uniform(size=(nrows, ncols))
np.savetxt('bigdata.csv', data, delimiter=',')

# read it back        
fpos = 0
chunksize = 456 # Small value for testing; make this big (megabytes).

# we will store the data here. Replace by memmap array if necessary.
odata = np.empty((nrows, ncols), dtype=np.float32)
oindex = 0

while True:
    lines, fpos = get_file_lines('bigdata.csv', fpos, chunksize)
    if not lines:
        # end of file
        break
    rdata = np.loadtxt(lines, delimiter=',')
    m, _ = rdata.shape
    odata[oindex:oindex+m, :] = rdata
    oindex += m
    
assert np.allclose(data, odata, atol=1e-7)

免责声明:我在 Linux 中对此进行了测试。我希望这可以在 Windows 中工作,但可能是处理 '\r' 字符会导致问题。

【讨论】:

  • 太棒了!这似乎正在处理我拥有的测试 1GB 文件。如果您能回答我的具体问题,将不胜感激:[1] odata = np.empty((nrows, ncols), dtype=np.float32)
  • 关于 [1] 和 [2]:我更新了答案。关于如何对大型 numpy memmap 数组进行排序的 [3]:如果关于该主题的现有答案不适合您,您需要将其作为一个新问题发布。
  • 谢谢,在您的帮助下,我可以在 HDF5 中读取和存储数据,但我无法对每个块执行排序并生成在第 2 列排序的最终 (Nx4) 数组。有什么建议?我也刚问过 SO 社区。​​span>
【解决方案2】:

我知道这不可能是一个答案,但是您是否考虑过使用二进制文件?当文件非常大时,以 ascii 保存是非常低效的。如果可以,请改用 np.save 和 np.load。

【讨论】:

  • 考虑到我是新手,能否请您详细说明一下?我基本上有一个包含 4 列的大文本文件。您是说将其转换为二进制文件然后使用 np.load?那使用RAM吗?如果您能分享一个 MWE,将不胜感激?
  • 您的回答不完整,应该作为评论发布。
猜你喜欢
  • 1970-01-01
  • 2011-12-22
  • 1970-01-01
  • 2020-10-24
  • 1970-01-01
  • 2015-05-21
相关资源
最近更新 更多