【发布时间】:2011-10-28 15:15:28
【问题描述】:
我想从这个页面下载所有数据集:http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20
我尝试过 wget,但挑战如下:
链接到文件的 URL 中没有文件名,它们可能具有不同的文件类型。
以下是文件 URL 的示例:http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata
该模式是所有 URL 都以 http://www.data.gov/download/ 开头并以 /geodata 结尾
抓取此网站的最佳方法是什么?我应该使用 wget、cURL、PHP 脚本还是其他东西?
【问题讨论】:
-
我仍然对此感到疑惑,因此非常感谢任何意见或建议!
标签: curl web-scraping wget