RCrawler：限制 RCrawler 收集的页面数量的方法？（不是爬行深度）答案

【问题标题】：RCrawler : way to limit number of pages that RCrawler collects? (not crawl depth)RCrawler：限制 RCrawler 收集的页面数量的方法？（不是爬行深度）
【发布时间】：2019-12-10 13:56:31
【问题描述】：

我正在使用 RCrawler 抓取约 300 个网站。网站的规模非常多样化：有些很小（几十页左右），有些很大（每个域 1000 页）。抓取后者非常耗时，而且 - 出于我的研究目的 - 当我已经有几百个页面时，更多页面的附加值会降低。

那么：如果收集到 x 个页面，有没有办法停止抓取？

我知道我可以使用 MaxDepth 限制爬网，但即使在 MaxDepth=2 时，这仍然是个问题。 MaxDepth=1 不适合我的研究。此外，我更愿意将 MaxDepth 保持在较高水平，这样较小的网站就会被完全抓取。

非常感谢！

【问题讨论】：

标签： r web-scraping rcrawler

【解决方案1】：

为Rcrawler函数的FUNPageFilter参数实现一个自定义函数怎么样？自定义函数检查DIR中的文件数量，如果文件太多则返回FALSE。

【讨论】：