【发布时间】:2013-08-17 10:40:32
【问题描述】:
我有一个 Haskell 程序,它在 ST monad 内运行期间生成约 280M 的日志记录文本数据。这是几乎所有内存消耗的地方(在禁用日志记录的情况下,程序总共分配了 3MB 实际内存)。
问题是,我的内存用完了。程序运行时内存消耗超过1.5GB,最终在尝试将日志字符串写入文件时耗尽。
log 函数接受一个 String 并将日志数据累积到一个 string builder 中,存储在环境中的 STRef 中:
import qualified Data.ByteString.Lazy.Builder as BB
...
myLogFunction s = do
...
lift $ modifySTRef myStringBuilderRef (<> BB.stringUtf8 s)
我尝试使用 bang 模式和 modifySTRef' 来引入严格性,但这会使内存消耗更加严重。
我按照 hPutBuilder 文档的建议编写日志字符串,如下所示:
hSetBinaryMode h True
hSetBuffering h $ BlockBuffering Nothing
BB.hPutBuilder h trace
这会额外消耗几 GB 的内存。我尝试了不同的缓冲设置并首先转换为惰性字节字符串(稍微好一点)。
问:
如何在程序运行时最大限度地减少内存消耗?我希望给定一个严格的 ByteString 表示和适当的严格性,我需要的内存比我存储的大约 280M 的实际日志数据多一点。
如何在不分配内存的情况下将结果写入文件?我不明白为什么 Haskell 需要 GB 内存才能将一些常驻数据流式传输到文件中。
编辑:
这是小规模运行的内存配置文件(约 42MB 的日志数据)。禁用日志记录的总内存使用量为 3MB。
15,632,058,700 bytes allocated in the heap
4,168,127,708 bytes copied during GC
343,530,916 bytes maximum residency (42 sample(s))
7,149,352 bytes maximum slop
931 MB total memory in use (0 MB lost due to fragmentation)
Tot time (elapsed) Avg pause Max pause
Gen 0 29975 colls, 0 par 5.96s 6.15s 0.0002s 0.0104s
Gen 1 42 colls, 0 par 6.01s 7.16s 0.1705s 1.5604s
TASKS: 3 (1 bound, 2 peak workers (2 total), using -N1)
SPARKS: 0 (0 converted, 0 overflowed, 0 dud, 0 GC'd, 0 fizzled)
INIT time 0.00s ( 0.00s elapsed)
MUT time 32.38s ( 33.87s elapsed)
GC time 11.97s ( 13.31s elapsed)
RP time 0.00s ( 0.00s elapsed)
PROF time 0.00s ( 0.00s elapsed)
EXIT time 0.00s ( 0.00s elapsed)
Total time 44.35s ( 47.18s elapsed)
Alloc rate 482,749,347 bytes per MUT second
Productivity 73.0% of total user, 68.6% of total elapsed
编辑:
我按照要求运行了一个带有小日志的内存配置文件:
profile http://imageshack.us/a/img14/9778/6a5o.png
我尝试在相关位置添加 bang 模式、$!、deepseq/$!!、force 等,但似乎没有任何区别。我如何强制 Haskell 实际获取我的字符串 / printf 表达式等并将其放在一个紧凑的 ByteString 中,而不是保留所有那些 [Char] 列表和未评估的 thunk?
编辑:
这是实际的完整跟踪功能
trace s = do
enable <- asks envTraceEnable
when (enable) $ do
envtrace <- asks envTrace
let b = B8.pack s
lift $ b `seq` modifySTRef' envtrace (<> BB.byteString b)
这够“严格”吗?如果我在 ReaderT/ST monad 中调用这个类型类函数,我需要注意什么吗?只是为了让它被实际调用而不是以任何方式延迟。
do
trace $ printf "%i" myint
还好吗?
谢谢!
【问题讨论】:
-
日志记录与状态无关,因此我建议您使用 Writer monad
-
即使从使用带有 STRef 的 reader monad 转换为 writer 我也有同样的情况。最后它是一个 Builder 类型的幺半群。我宁愿不要无缘无故地在转换器堆栈中添加 WriterT。
-
我们需要更多数据。你能给我们看一个堆配置文件吗?您的日志是如何生成的?例如,如果您使用
stringUtf8,那么我怀疑生成的Builder包含大量对String的引用,这就是内存的去向。 -
顺便说一句,问题几乎可以肯定是过度懒惰并且不了解
Builder表示的细节。强制Builder什么都不做。如果ByteString在其构造中具有对象图,则强制将ByteString添加到其中至关重要。 -
@AN1 正如我所怀疑的那样,您的堆配置文件显示普通
Strings 消耗了大量内存。我同意@Carl 的观点,这看起来像是过分的懒惰。顺便说一句,您可以使用hp2ps -c生成颜色输出。
标签: haskell logging out-of-memory lazy-evaluation bytestring