【发布时间】:2011-10-02 11:19:46
【问题描述】:
我有 n 个 csv 文件,我需要将它们相互比较并在之后进行修改。 问题是每个 csv 文件有大约 800.000 行。
要读取 csv 文件,我使用 fgetcsv 并且效果很好。获得一些记忆棒,但最终它已经足够快了。但是,如果我尝试将数组相互比较,则需要很长时间。
另一个问题是我必须使用 foreach 来获取带有 fgetcsv 的 csv 数据,因为有 n 个文件。我最终得到了一个超大数组,无法将其与 array_diff 进行比较。所以我需要将它与嵌套的 foreach 循环进行比较,这需要很长时间。
一个代码 sn-p 以便更好地理解:
foreach( $files as $value ) {
$data[] = $csv->read( $value['path'] );
}
我的 csv 类使用 fgetcsv 将输出添加到数组中:
fgetcsv( $this->_fh, $this->_lengthToRead, $this->_delimiter, $this->_enclosure )
所有 csv 文件的每个数据都存储在 $data 数组中。这可能是只使用一个数组的第一个大错误,但我不知道如何在不使用 foreach 的情况下保持文件的灵活性。我尝试使用灵活的变量名,但我也卡在那里:)
现在我有了这个大数组。通常,如果我尝试将这些值相互比较并找出文件一中的数据是否存在于文件二中,依此类推,我使用 array_diff 或 array_intersect。但在这种情况下,我只有一个大数组。正如我所说,运行一个 foreach 需要很长时间。
在只有 3 个文件之后,我有一个包含 3 * 800.000 个条目的数组。我猜最近 10 个文件后我的记忆会爆炸。
那么有没有更好的方法来使用 PHP 来比较 n 个非常大的 csv 文件?
【问题讨论】:
-
必须是 PHP 吗?也许有一个命令行实用程序可以做到这一点?您如何准确比较文件?
-
我是 1980 年的程序员' - 然后我们通过使用排序解决了它,然后是一些逻辑进行比较,然后是第三个文件与结果。有时,您将作业拆分成更小的块 - 然后连续运行它们。这不是一个解决方案,而是一种思维方式......
-
将所有文件存储在一个数组中的意义何在?
-
我需要将它们相互比较并从中生成一个新数组,我对其进行修改并通过 API 发送它。所以最后,我需要它返回给 PHP 的 API。 @Col。正如我所说,重点是我不知道如何拆分它并保持灵活性:)
-
数据必须是 CSV 格式吗?为什么不将其导入数据库?大多数 DBMS 都支持将 CSV 文件轻松导入表中,一旦将其导入表中,您就可以对数据运行查询以进行比较。