【发布时间】:2013-10-12 10:07:26
【问题描述】:
我目前在应用程序中使用 jsoup 来解析和分析网页。但我想确保我遵守 robots.txt 规则并且只访问允许的页面。
我很确定 jsoup 不是为此而生的,它完全是关于网络抓取和解析的。 所以我打算有一个函数/模块,它应该读取域/站点的robot.txt并识别我要访问的url是否被允许。
我做了一些研究,发现了以下内容。但我不确定这些,所以如果有人做涉及robot.txt解析的同类项目,那就太好了,请分享你的想法和想法。
http://sourceforge.net/projects/jrobotx/
https://code.google.com/p/crawler-commons/
http://code.google.com/p/crowl/source/browse/trunk/Crow/src/org/crow/base/Robotstxt.java?r=12
【问题讨论】:
-
到底是什么问题?解析 robots.txt 似乎有点超出 Jsoup 的范围。 Jsoup 是用来解析网页的,就像你自己说的那样。
-
谢谢,是的,我正在使用 jsoup 来解析页面......但要求是解析仅在 robots.txt 中允许(不受限制)的 url .. 对于这个验证似乎 JSoup不是最好的或没有能力的。所以我需要知道的是如何在进行实际解析之前对 robots.txt 进行验证。
-
好的,这很好。我正在寻找一个使用 jsoup 的小项目,所以我可以自己做。
-
@alkis 你有什么想法吗?
标签: java web-scraping jsoup crawler4j