【发布时间】:2019-10-19 11:52:33
【问题描述】:
我有一个域名为raymond.li 的网站。我想要一个所有网址的完整列表,所以我尝试了类似
wget -r --spider raymond.li
如何获得域上所有可访问 url 的完整列表?
编辑:经过进一步调查,这是不可能的。
【问题讨论】:
-
如果您网站上的任何地方都没有指向您引用的特定 URL 的链接,则没有爬虫可以找到它,因此没有解决方案。如果您控制服务器端,并且如果您使用静态页面,那么您可以在服务器上列出它们,但您还需要考虑各种网络服务器可能的重写规则、别名等。如果您使用的是动态应用程序,那就更不可能了。
标签: html url dns web-crawler