【发布时间】:2011-07-22 23:23:38
【问题描述】:
我创建了一个将作为 cron 作业运行的爬虫。爬虫的目的是浏览我网站上的帖子并从中提取关键字。
目前,我正在针对速度和服务器负载优化脚本 - 但我很好奇每种基准的哪些类型被认为是“好”的?
例如,以下是我测试过的一些配置,每次运行 5,000 个帖子(您会注意到速度和内存之间的权衡):
测试 1 - 为节省内存而优化的脚本:
Run time: 52 seconds
Avg. memory load: ~6mb
Peak memory load: ~7mb
测试 2 - 针对速度优化的脚本
Run time: 30 seconds
Avg. memory load: ~40mb
Peak memory load: ~48mb
显然,这里的决定是速度与服务器负载。我很好奇你对这些数字有何反应。 40mb 是否是一个昂贵的数字,如果它如此大幅度地提高速度(并且还最大限度地减少 MySQL 连接?)
或者,如果 MySQL 连接越多,脚本运行速度越慢,内存开销越小越好?
【问题讨论】:
-
请停止写标签,谢谢。
-
我没有创建任何他们都建议的标签...
-
如果您在父母地下室的旧 Atari 上运行,40mb 是一个难以想象的昂贵数字。如果您在企业服务器上运行,则可能不会那么多。您能否向我们提供有关您使用的硬件类型的更多信息?
-
@johnnietheblack:欢迎来到 Stack Overflow! *咳咳*
-
@Tomalak - 哈哈,我是老粉丝了。我应该在提问时不要喝啤酒;)
标签: php optimization memory-management performance