【问题标题】:Web Crawler in Grails to calculate page depthGrails 中的网络爬虫计算页面深度
【发布时间】:2014-06-25 18:43:43
【问题描述】:

我正在制作一个爬虫应用程序。我希望抓取网站并找到检索到的网页的深度。我阅读了不同的抓取和解析工具,但无济于事。它们似乎都没有提供计算深度的支持。我也不确定使用哪个爬虫工具可以最接近所需的功能。任何帮助表示赞赏。

【问题讨论】:

  • 我正在做类似的事情。您可以尝试使用 crawler4j 进行爬行。甚至我一直在研究的深度部分。
  • 我知道 JSoup 是用于 Grails 应用程序的最佳可用解析器,但不确定这是否能提供计算深度的能力。
  • 我在 Java 中尝试了两种不同的解析器:JSoup 和 Jaunt。两种解决方案都很棒,但我更喜欢 JSoup。但归根结底,它只是一个解析器。

标签: parsing grails web-crawler


【解决方案1】:

最重要的可能是您的域的映射(而不是解析器)。

因为,如果您使用的是树 (More information on wikipedia),则很容易计算您的 URL 的深度(最小深度)。

希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-08-03
    • 1970-01-01
    • 1970-01-01
    • 2018-01-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-09-26
    相关资源
    最近更新 更多