【发布时间】:2014-06-25 18:43:43
【问题描述】:
我正在制作一个爬虫应用程序。我希望抓取网站并找到检索到的网页的深度。我阅读了不同的抓取和解析工具,但无济于事。它们似乎都没有提供计算深度的支持。我也不确定使用哪个爬虫工具可以最接近所需的功能。任何帮助表示赞赏。
【问题讨论】:
-
我正在做类似的事情。您可以尝试使用 crawler4j 进行爬行。甚至我一直在研究的深度部分。
-
我知道 JSoup 是用于 Grails 应用程序的最佳可用解析器,但不确定这是否能提供计算深度的能力。
-
我在 Java 中尝试了两种不同的解析器:JSoup 和 Jaunt。两种解决方案都很棒,但我更喜欢 JSoup。但归根结底,它只是一个解析器。
标签: parsing grails web-crawler