【发布时间】:2013-11-05 17:32:25
【问题描述】:
我是 scala 的新手,并且可以即时解决问题。我有一个程序需要读取各种大小的 Gzip 文件 - 20KB、2MB 和 150MB(是的,压缩文件是 150MB)。我认为没有一种不同的方法来读取不同的文件,而是一种标准的方法。我看到的大多数方法都使用 64MB 的缓冲区大小来逐行读取文件?什么是最好的(读作,*最快和干净的内存 * 方法)来做到这一点?
提前感谢您的帮助!
更新 1:
阅读率大大提高。(我什至会分享我的业力点)谢谢! :)
但是,我注意到,由于我的每个文件都有大约 10K 行,在将它们写入文件时,在写入文件之前将字符串迭代器转换为字符串需要很长时间。我可以做两种方法,
- 逐行迭代并逐行写入文件。
- 逐行迭代以将行转换为大字符串(“\n”分隔)并将该大字符串写入文件。
我假设 [2] 会更快。所以,这就是写作的目的,
var processedLines = linesFromGzip(new File(fileName)).map(line => MyFunction(line))
var outFile = Resource.fromFile(outFileName)
outFile.write(processedLines.mkString("\n")) // severe overhead -> processedLines.mkString("\n")
此外,我的分析(通过评论 write() 表明,将 processedLines 转换为单个大字符串并不需要太多时间 - 它需要接近一秒钟 - 这是巨大的成本对于我的应用程序。最好的(再次清理没有任何内存泄漏)方法来做到这一点。
【问题讨论】:
-
你说的干净的内存是什么意思?
-
每种类型都有大约 10K 个文件。我希望我的进程可以线性缩放而没有任何内存泄漏。例如:在 Python 中,readlines() 使文件在内存中保持打开状态,这可能会导致内存开销。我不想得到那种类型的泄漏(显然我们没有内存来处理内存中的所有这些文件)
标签: performance scala optimization file-io gzip