【问题标题】:Wget download many files in the sublink of a webpagewget在一个网页的子链接中下载很多文件
【发布时间】:2018-02-19 03:48:01
【问题描述】:

我正在尝试使用 wget 下载许多文件(约 30,000 个),所有文件都在以下网页中:

http://galex.stsci.edu/gr6/?page=tilelist&survey=ais&showall=Y

但是,当我点击Fits后,真正的数据在一个子链接下,然后显示该子链接下的一些文件。例如第一个文件的子链接如下:

http://galex.stsci.edu/gr6/?page=downloadlist&tilenum=50270&type=coaddI&subvis=28&img=1

我只想下载此子链接中的一个文件:Intensity Map 乐队NUV。在上述情况下,它是我要下载的第二个文件。

所有文件都具有相同的结构。如何使用 wget 下载子链接下的所有文件?

【问题讨论】:

    标签: download wget subdirectory


    【解决方案1】:

    NUV 波段文件的强度图 有一个共同的结尾,这应该允许您在目标站点上使用wget -r -A "*nd-int.fits.gz" 仅下载您想要的文件。这使用了 wget 的递归函数 -r 和接受列表函数 -A。接受列表功能,概述here,只会根据扩展名、名称或命名约定下载您想要的文件。 wget 递归函数能否成功爬取整个目标站点是您必须测试的。

    如果上述方法不起作用,则该网站似乎有用于过滤可用文件的便捷工具,例如 catalog search

    【讨论】:

    • 感谢 Tigelle。我试过你的方法wget -r -A "*nd-int.fits.gz" http://galex.stsci.edu/gr6/?page=tilelist&survey=ais&showall=Y,但是没用。目录搜索将返回图像中的对象,但是,我想自己测量图像中的一些对象。所以我想下载那些图片。
    • 子链接不是子文件夹,所以这可能是它不起作用的原因。
    • @Huanian Zhang 你可以在“galex.stsci.edu/gr6”甚至“galex.stsci.edu”上试试 wget 命令。我不确定这一点,但我假设您通过使用上面列出的完整网址来限制 wget。
    • 谢谢。我试过了,但这个 url 中没有匹配的项目。我会尝试其他的。
    • 你试过没有/gr6/的基本网址吗?我看到一个目标文件的 url 是http://galex.stsci.edu/data/GR6/pipe/02-vsn/50270-AIS_270/d/01-main/0001-img/07-try/AIS_270_sg28-nd-int.fits.gz,所以如果你还没有定位,也许你应该定位http://galex.stsci.edu/http://galex.stsci.edu/data/GR6/pipe/
    猜你喜欢
    • 1970-01-01
    • 2019-01-30
    • 1970-01-01
    • 2013-11-27
    • 2023-04-09
    • 1970-01-01
    • 1970-01-01
    • 2018-02-26
    • 2012-07-01
    相关资源
    最近更新 更多