【问题标题】:How to download all listed files from a webpage where the URL’s do not have filenames defined如何从 URL 未定义文件名的网页下载所有列出的文件
【发布时间】:2011-10-28 15:15:28
【问题描述】:

我想从这个页面下载所有数据集:http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20

我尝试过 wget,但挑战如下:

链接到文件的 URL 中没有文件名,它们可能具有不同的文件类型。

以下是文件 URL 的示例:http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata

该模式是所有 URL 都以 http://www.data.gov/download/ 开头并以 /geodata 结尾

抓取此网站的最佳方法是什么?我应该使用 wget、cURL、PHP 脚本还是其他东西?

【问题讨论】:

  • 我仍然对此感到疑惑,因此非常感谢任何意见或建议!

标签: curl web-scraping wget


【解决方案1】:

为什么 wget 在这种情况下不起作用?根据您的示例 URL,递归 wget 检索会将每个下载的文件放入其自己目录中的文件“geodata”中。一旦它在您的本地磁盘上,您可以按照自己的意愿处理数据,包括重命名文件并将其移动到更方便的形式(例如使用 mmv 或 find -exec 命令)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-02
    • 1970-01-01
    相关资源
    最近更新 更多