【问题标题】:Get sub URLs from main URL从主 URL 获取子 URL
【发布时间】:2017-05-07 14:56:43
【问题描述】:

我不确定如何正确表达这个问题,所以请善待并让我知道如何正确提问:)

假设我有一个网址:www.potato.com

如何从该域中找到所有有效的子 URL?例如,粗体:

www.potato.com/hidden_​​pages/you_cannot_guess_this_page

www.potato.com/hidden_​​pages/cant_guess_this_either

有没有办法可以查询 www.potato.com/hidden_​​pages/ 以获取所有子 URL?

谢谢! :)

【问题讨论】:

    标签: python url web


    【解决方案1】:

    如果网络服务器启用了目录列表(例如,在nginxapache 中查看如何执行此操作),那么您可以查询目录www.potato.com/hidden_pages,您将获得其下的文件/目录列表可以用beautifulsoup 之类的东西来解析。

    或者,如果网站有站点地图(例如 www.potato.com/sitemap.xml ),您可以对其进行解析以找出“hidden_​​pages”下的页面,前提是它已在站点地图中列出。

    TL:DR : 如果网站管理员希望您能够访问这些页面,那么您可以使用上述方法进行操作,否则您必须暴力破解/猜测链接。

    【讨论】:

      猜你喜欢
      • 2015-07-14
      • 2010-09-22
      • 2011-04-30
      • 1970-01-01
      • 1970-01-01
      • 2016-08-15
      • 2013-04-18
      • 2012-03-26
      相关资源
      最近更新 更多