【问题标题】:wget "mirroring" pdf linked to different domainwget“镜像”pdf链接到不同的域
【发布时间】:2011-11-21 23:01:24
【问题描述】:

Webpage 包含一个link to a pdf(注意不同的域)。

我可以使用 wget 直接下载 pdf,但似乎无法识别正确的 wget 命令行选项来“镜像”包含此链接 pdf 的网页。我尝试使用诸如

之类的选项组合
  • -p
  • --span-hosts
  • -D
  • --接受

没有成功。

可以使用 wget(或其他命令行工具)下载链接的 pdf-s 吗?

谢谢

【问题讨论】:

    标签: javascript regex url download wget


    【解决方案1】:

    虽然 pdf 链接显示在浏览器中,但页面源不包含下载链接。所以wget 不会看到/关注链接,因为它并没有真正“处理”页面。

    【讨论】:

      【解决方案2】:

      尝试解析http://www.yowconference.com.au/brisbane/data/35.js。 (我用 HttpFox 找到了这个 url。)格式化代码后(例如用 http://jsbeautifier.org/),很容易 grep 出 pdf 文件的 url。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-09-02
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多