【问题标题】:Java: check, if URL is allowed by robots.txt [duplicate]Java:检查,robots.txt 是否允许 URL [重复]
【发布时间】:2018-05-29 10:32:57
【问题描述】:

假设应用程序具有:

  • robots.txt 内容,
  • 感兴趣的网址和
  • 浏览实体元数据(如用户代理字符串等)

如何检查 robots.txt 是否允许特定的 URL?

【问题讨论】:

    标签: java web-crawler


    【解决方案1】:

    crawler-commons 是一个 Java API,它可以解析给定特定机器人名称的机器人文件并返回适用于该机器人的规则。规则有一个 isAllowed(String url) 方法,可以满足您的需求。

    【讨论】:

    • 酷。这正是我们想要的。
    • @DenisKulagin 是否值得将我的答案标记为已接受?
    • 那是肯定的!
    猜你喜欢
    • 2013-12-28
    • 1970-01-01
    • 2019-04-28
    • 1970-01-01
    • 2023-04-07
    • 1970-01-01
    • 2013-08-22
    • 1970-01-01
    • 2013-08-18
    相关资源
    最近更新 更多