【发布时间】:2018-05-29 10:32:57
【问题描述】:
假设应用程序具有:
- robots.txt 内容,
- 感兴趣的网址和
- 浏览实体元数据(如用户代理字符串等)
如何检查 robots.txt 是否允许特定的 URL?
【问题讨论】:
标签: java web-crawler
假设应用程序具有:
如何检查 robots.txt 是否允许特定的 URL?
【问题讨论】:
标签: java web-crawler
crawler-commons 是一个 Java API,它可以解析给定特定机器人名称的机器人文件并返回适用于该机器人的规则。规则有一个 isAllowed(String url) 方法,可以满足您的需求。
【讨论】: