【发布时间】:2018-09-12 05:15:20
【问题描述】:
我想知道是否可以列出来自网站的 URL。这些 URL 是托管 zip 文件的 URL,如果您正确提供它们,文件将被下载。如果没有,您将被定向到 404 页面。
例如,如果主站点是https://myexample.net/,我对https://myexample.net/wp-content/uploads/2018/04/[do not have a pattern].zip 下的文件感兴趣。我尝试访问https://myexample.net/wp-content/uploads/2018/04/,但得到了404 error。
此外,我检查了https://myexample.net/sitemap_index.xml,但没有找到我感兴趣的那些网址。所以问题是如何guess那些网址...感谢任何建议!
【问题讨论】:
-
https://myexample.net/wp-content/uploads/2018/04/可能会显示 zip 文件的列表,其中的 HTML 可能会被抓取。你能发布你的实际链接吗?这将使编写有效的解决方案变得更加容易。 -
@Ajax1234,感谢您的建议。我试图访问
https://myexample.net/wp-content/uploads/2018/04/,但得到一个`404错误...
标签: python web-scraping scrapy web-crawler