【问题标题】:ManifoldCF and Postgresql to crawl 1.5 Million of documentsManifoldCF 和 Postgresql 抓取 150 万份文档
【发布时间】:2019-02-08 11:02:00
【问题描述】:

我们使用 ManifoldCF 和 Postgresql (9.6) 来抓取我们的网站。 在 500.000 文档之前,爬行速度很好(大约 20.000 文档/小时)。 在性能下降之后,我们可以看到爬行的长时间冻结(非常长)。 我们怀疑postgresql 重建了intrinsiclink 表的索引。 可以禁止这个吗?通过 postgresql 的设置?

谢谢 丹

【问题讨论】:

    标签: manifoldcf


    【解决方案1】:

    您使用的是哪个 MCF 版本?尝试最新版本:2.13

    大多数时候数据库拖累了性能。更好地调整 PG 会得到更好的结果

    根据 MCF 指南:https://manifoldcf.apache.org/release/release-2.13/en_US/performance-tuning.html

    你应该关闭 PG autovacuuming,看看是否有帮助。

    在调整中还有许多其他因素可以尝试。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-12-14
      • 2012-08-01
      • 1970-01-01
      • 1970-01-01
      • 2018-12-26
      • 1970-01-01
      • 2020-10-12
      • 2014-05-01
      相关资源
      最近更新 更多