【问题标题】:How can I get a list of all accessible urls under a domain?如何获取域下所有可访问 url 的列表?
【发布时间】:2019-10-19 11:52:33
【问题描述】:

我有一个域名为raymond.li 的网站。我想要一个所有网址的完整列表,所以我尝试了类似

wget -r --spider raymond.li

如何获得域上所有可访问 url 的完整列表?

编辑:经过进一步调查,这是不可能的。

【问题讨论】:

  • 如果您网站上的任何地方都没有指向您引用的特定 URL 的链接,则没有爬虫可以找到它,因此没有解决方案。如果您控制服务器端,并且如果您使用静态页面,那么您可以在服务器上列出它们,但您还需要考虑各种网络服务器可能的重写规则、别名等。如果您使用的是动态应用程序,那就更不可能了。

标签: html url dns web-crawler


【解决方案1】:

您可以使用站点地图,它基本上是所述域上每个 URL 的 XML 列表。但是,除了爬行之外,没有通用的解决方案。如果您使用爬虫,请务必使用 robots.txt。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2010-11-06
    • 2016-11-01
    • 1970-01-01
    • 1970-01-01
    • 2018-11-29
    • 2010-12-07
    • 1970-01-01
    相关资源
    最近更新 更多