【发布时间】:2012-11-14 06:45:03
【问题描述】:
我以三种不同的方式将一些输出重定向到一个文件,每种方式都需要明显不同的时间。
$ >/tmp/file ; time for i in {1..1000}; do for j in {1..1000}; do echo $i $j >> /tmp/file; done; done
real 0m33.467s
user 0m21.170s
sys 0m11.919s
$ >/tmp/file ; exec 3>/tmp/file; time for i in {1..1000}; do for j in {1..1000}; do echo $i $j >&3; done; done; exec 3>&-
real 0m24.211s
user 0m17.181s
sys 0m7.002s
$ >/tmp/file ; time for i in {1..1000}; do for j in {1..1000}; do echo $i $j; done; done >> /tmp/file
real 0m17.038s
user 0m13.072s
sys 0m3.945s
谁能解释一下这里的区别。我目前的理解/怀疑是:
- 1st 是最慢的,因为它会多次打开/关闭文件,而其他人只执行一次。那正确吗?缓冲呢。通常,我希望所有输出都得到缓冲,在这种情况下,我们不应该有这么大的时间差异。
- 第三,如果所有输出都只写在外循环的末尾,那么当循环仍在执行时,所有输出都存储在哪里。也许在记忆中。这是否意味着如果我回显很多内容并且只在最后写入,我可能会耗尽内存。
- 第二名更像第一名或第三名。为什么两者都如此不同。
PS:我已经运行了几次上述命令,发现时间是一致的。所以,我看到的差异一定是由于一些真正的原因。
【问题讨论】:
-
是的,每次追加都会打开和关闭文件。您对缓冲的评论不适用,因为文件每次都关闭,并且会刷新缓冲区。
-
您的第二条评论错过了重要的一点,从外部循环重定向与时间无关,这意味着它内部的所有内容都被重定向。它不会将数据存储在内存中(正常缓冲除外),然后只完成一次写入,每次缓冲区变满时都会写入。缓冲区大小各不相同,通常可能在 2k 到 4k 之间。
-
正如时序所示,#2 介于 #1 和 #3 之间。没有打开和关闭输出文件,但在内循环中有文件描述符 3 的
dup(),而替代 #3 没有这样的开销。 -
@cdarke - 感谢您的回复。你说的很有道理。
-
@tripleee - 抱歉,我不明白。在#2 中,我们在开头打开文件并在结尾关闭。所以,就像#3。写fd是什么意思。我会假设它与写入文件相同。因此,如上所述,这些写入将被缓冲,直到缓冲区已满,然后才被写入。这使它与#3 更加相似。 dup() 的开销是否足以解释我看到的差异,即 17 秒到 24 秒。这里发生了什么额外的工作?