对具有大量行的文件进行文本扫描答案

【问题标题】：Textscan on file with large number of lines对具有大量行的文件进行文本扫描
【发布时间】：2015-08-20 18:38:43
【问题描述】：

我正在尝试在 MATLAB 中使用 textscan 分析一个非常大的文件。有问题的文件大小约为 12 GB，包含约 2.5 亿行，每行有七个（浮动）数字（由空格分隔）；因为这显然不适合我桌面的 RAM，所以我使用MATLAB documentation 中建议的方法（即一次加载和分析文件的较小块。根据文档，这应该允许处理“任意大的分隔文本文件[s]")。这只允许我扫描大约 43% 的文件，之后 textscan 开始返回空单元格（尽管文件中仍有数据要扫描）。

为了调试，我尝试使用fseek 函数转到文件中的多个位置，例如：

fileInfo = dir(fileName);
fid = fileopen(fileName);
fseek(fid, floor(fileInfo.bytes/10), 'bof');
textscan(fid,'%f %f %f %f %f %f %f','Delimiter',' ');

我假设我在这里使用fseek 的方式将位置指示器移动到我文件的大约 10%。（我知道这并不一定意味着指标位于一行的开头，但如果我运行 textscan 两次，我会得到一个令人满意的答案。）现在，如果我用 fileInfo.bytes/2 替换 fileInfo.bytes/10（即将其移动到文件的 50% 左右）一切都崩溃了，textscan 只返回一个空的 1x7 单元格。

我使用大文件的文本编辑器查看了该文件，这表明整个文件看起来不错，没有理由让textscan 感到困惑。我能想到的唯一可能的解释是，在我不太了解的更深层次上出现了问题。任何建议将不胜感激！

编辑

我的代码的相关部分过去看起来像这样：

while ~feof(fid)
    data = textscan(fid, FormatString, nLines, 'Delimiter', ' '); %// Read nLines
        %// do some stuff
end

首先，我尝试按照下面 Hoki 的建议使用 ftell 和 fseek 修复它。这给出了与我之前得到的完全相同的错误：MATLAB 无法读取超过大约 43% 的文件。然后我尝试使用HeaderLines 解决方案（也建议如下），如下所示：

i = 0;
while ~feof(fid)
    frewind(fid)
    data = textscan(fid, FormatString, nLines, 'Delimiter',' ', 'HeaderLines', i*nLines);
        %// do some stuff
    i = i + 1;
end

这似乎读入数据而不会产生错误；然而，它的速度非常慢。

我不完全确定我理解HeaderLines 在这种情况下做了什么，但它似乎使textscan 完全忽略了指定行之前的所有内容。当以“适当”的方式使用textscan 时，这似乎不会发生（无论有没有ftell 和fseek）：在这两种情况下，它都试图从最后一个位置继续，但无济于事，因为一些我还不明白的原因。

【问题讨论】：

您是否有能力更改写入文本文件的进程并将其更改为输出二进制文件？我知道这不是您问题的答案，但它提供了另一种途径来获取您需要的信息。
@Matt 不幸的是，我正在尝试分析只能以纯文本输出的第三方软件包的输出。

标签： matlab textscan

【解决方案1】：

fseek 文件中的指针只有在您确切知道要移动光标的位置（或多少字节）时才有效。当您只想跳过一些已知长度的记录时，它对于二进制文件非常有用。但是在文本文件上，它比任何东西都更危险和令人困惑（除非您绝对确定每一行的大小相同，并且该行上的每个元素都位于相同的确切位置/列，但这不会发生经常）。

有几种方法可以逐块读取文本文件：

1) 使用`HeaderLines` 选项

要简单地跳过文本文件中的一行行，可以使用textscan 的HeaderLines 参数，例如：

readFormat = '%f %f %f %f %f %f %f' ;   %// read format specifier
nLines = 10000 ;                        %// number of line to read per block

fileInfo = dir(fileName);

%// read FIRST block
fid = fileopen(fileName);
M = textscan(fid, readFormat, nLines,'Delimiter',' '); %// read the first 10000 lines
fclose(fid)
    %// Now do something with your "M" data

那么当你要读取第二块时：

%// later read the SECOND block:
fid = fileopen(fileName);
M = textscan(fid, readFormat, nLines,'Delimiter',' ','HeaderLines', nLines); %// read lines 10001 to 20000
fclose(fid)

如果你有很多块，对于 Nth 块，只需适应：

%// and then for the Nth BLOCK block:
fid = fileopen(fileName);
M = textscan(fid, readFormat, nLines,'Delimiter',' ','HeaderLines', (N-1)*nLines);
fclose(fid)

如有必要（如果您有很多块），只需在循环中编写最后一个版本即可。

请注意，如果您在每次读取块后关闭您的文件，这很好（这样当您再次打开文件时，文件指针将从文件的开头开始）。如果您的处理可能需要很长时间或可能出错（您不希望文件保持打开时间过长或在崩溃时丢失fid），则在读取数据块后关闭文件会更安全。

2) 逐块读取（不关闭文件）

如果块的处理足够快速和安全，因此您确定它不会被炸毁，那么您可以不关闭文件。在这种情况下，textscan 文件指针将停留在您停止的位置，因此您也可以：

读取一个块（不要关闭文件）：M = textscan(fid, readFormat, nLines)
处理它然后保存您的结果（并释放内存）
使用相同的调用读取下一个块：M = textscan(fid, readFormat, nLines)

在这种情况下，您不需要headerlines 参数，因为textscan 将准确地从停止的位置继续读取。

3) 使用`ftell` 和`fseek`

最后，您可以使用fseek 在您想要的精确位置开始读取文件，但在这种情况下，我建议将它与ftell 结合使用。

ftell 将在打开的文件中返回当前位置，因此使用它来知道您上次停止阅读的位置，然后下次使用fseek 直接进入该位置。比如：

%// read FIRST block
fid = fileopen(fileName);
M = textscan(fid, readFormat, nLines,'Delimiter',' ');
lastPosition = ftell(fid) ;
fclose(fid)

%// do some stuff

%// then read another block:
fid = fileopen(fileName);
fseek( fid , 'bof' , lastPosition ) ;
M = textscan(fid, readFormat, nLines,'Delimiter',' ');
lastPosition = ftell(fid) ;
fclose(fid)
%// and so on ...

【讨论】：

您好 Hoki，感谢您的回答！我会试试你的HeaderLines 建议，也许可行。我已经开始尝试您在答案末尾的建议（通过反复使用textscan 扫描和处理块），但是，这种方法在处理文件的过程中造成了大约 43% 的故障（从那时起仅尽管文件本身中有数据，但正在读取空单元格）。我希望能就这个问题得到一些澄清，如果我最初的问题不清楚，我很抱歉。
@Julius，您的文件中可能有一行 corrupted 行，导致textscan 失败。尝试使用textscan 的'EmptyValue' 和/或'TreatAsEmpty' 参数，它们可以避免您在文件中途因为错字而绊倒。
我尝试了您的 HeaderLines 建议来查看读取文件失败的块（我确定这大约是下降的 43%）。我使用frewind 确保位于文件的开头，然后从40% 标记开始扫描总行数的5%（使用HeaderLines 选项设置）。这返回了一个包含我希望看到的数据的单元格数组，没有任何空单元格。对我来说，这表明这不是导致我的问题的损坏线路，而是textscan 内部出现问题。你对此有什么想法吗？
我看不出textscan在读取大块数据时会失败的任何原因（除了内存限制问题），但我不够专业，无法了解它的一切。您可以正确读取文件的这一部分这一事实似乎表明以块形式读取文件是可行的。因此，围绕它实施一个解决方案（例如，以 10 个 ~10% 的块读取文件）。如果您真的想深入了解它，您可以尝试将文件分成 2 部分，然后 3 部分等......看看问题是否仍然存在。
底线...我不认为处理 12GB 文本文件是一个好主意。我建议将文件分成至少

1) 使用HeaderLines 选项

2) 逐块读取（不关闭文件）

3) 使用ftell 和fseek

1) 使用`HeaderLines` 选项

3) 使用`ftell` 和`fseek`