【发布时间】:2019-02-08 11:02:00
【问题描述】:
我们使用 ManifoldCF 和 Postgresql (9.6) 来抓取我们的网站。 在 500.000 文档之前,爬行速度很好(大约 20.000 文档/小时)。 在性能下降之后,我们可以看到爬行的长时间冻结(非常长)。 我们怀疑postgresql 重建了intrinsiclink 表的索引。 可以禁止这个吗?通过 postgresql 的设置?
谢谢 丹
【问题讨论】:
标签: manifoldcf
我们使用 ManifoldCF 和 Postgresql (9.6) 来抓取我们的网站。 在 500.000 文档之前,爬行速度很好(大约 20.000 文档/小时)。 在性能下降之后,我们可以看到爬行的长时间冻结(非常长)。 我们怀疑postgresql 重建了intrinsiclink 表的索引。 可以禁止这个吗?通过 postgresql 的设置?
谢谢 丹
【问题讨论】:
标签: manifoldcf
您使用的是哪个 MCF 版本?尝试最新版本:2.13
大多数时候数据库拖累了性能。更好地调整 PG 会得到更好的结果
根据 MCF 指南:https://manifoldcf.apache.org/release/release-2.13/en_US/performance-tuning.html
你应该关闭 PG autovacuuming,看看是否有帮助。
在调整中还有许多其他因素可以尝试。
【讨论】: