如何从 URL 未定义文件名的网页下载所有列出的文件答案

【问题标题】：How to download all listed files from a webpage where the URL’s do not have filenames defined如何从 URL 未定义文件名的网页下载所有列出的文件
【发布时间】：2011-10-28 15:15:28
【问题描述】：

我想从这个页面下载所有数据集：http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20

我尝试过 wget，但挑战如下：

链接到文件的 URL 中没有文件名，它们可能具有不同的文件类型。

以下是文件 URL 的示例：http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata

该模式是所有 URL 都以 http://www.data.gov/download/ 开头并以 /geodata 结尾

抓取此网站的最佳方法是什么？我应该使用 wget、cURL、PHP 脚本还是其他东西？

【问题讨论】：

我仍然对此感到疑惑，因此非常感谢任何意见或建议！

标签： curl web-scraping wget

【解决方案1】：

为什么 wget 在这种情况下不起作用？根据您的示例 URL，递归 wget 检索会将每个下载的文件放入其自己目录中的文件“geodata”中。一旦它在您的本地磁盘上，您可以按照自己的意愿处理数据，包括重命名文件并将其移动到更方便的形式（例如使用 mmv 或 find -exec 命令）。

【讨论】：