【问题标题】:wget downloading only PDFs from websitewget 仅从网站下载 PDF
【发布时间】:2023-03-15 23:25:02
【问题描述】:

我正在尝试从http://www.fayette-pva.com/ 下载所有 PDF。

我认为问题在于,将鼠标悬停在下载 PDF 镶边的链接上时,会在左下角显示 URL,而没有 .pdf 文件扩展名。我看到并使用了另一个与此类似的论坛答案,但是当我将光标悬停在 PDF 链接上时,.pdf 扩展名用于 URL。我尝试了与下面链接中相同的代码,但它没有获取 PDF 文件。

这是我一直在测试的代码:

wget --no-directories -e robots=off -A.pdf -r -l1 \
    http://www.fayette-pva.com/sales-reports/salesreport03-feb-09feb2015/

我在一个页面上使用它,我知道它上面有一个 PDF。

完整的代码应该是这样的

wget --no-directories -e robots=off -A.pdf -r http://www.fayette-pva.com/

相关回答:WGET problem downloading pdfs from website

我不确定下载整个网站是否可行,也不确定是否需要永久下载。如何解决此问题并仅下载 PDF?

【问题讨论】:

    标签: pdf wget


    【解决方案1】:

    是的,问题正是您所说的:URL 不包含常规或绝对文件名,而是对分发实际文件的脚本/servlet/... 的调用。

    解决方案是使用--content-disposition 选项,它告诉wget 遵守HTTP 响应中的Content-Disposition 字段,该字段带有实际文件名:

    HTTP/1.1 200 OK
    (...)
    Content-Disposition: attachment; filename="SalesIndexThru09Feb2015.pdf"
    (...)
    Connection: close
    

    wget 至少从版本 1.11.4 开始支持此选项,该版本已经 7 岁了。

    因此,您将执行以下操作:

    wget --no-directories --content-disposition -e robots=off -A.pdf -r \
        http://www.fayette-pva.com/
    

    【讨论】:

    • 非常被低估的答案 - 谢谢!!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-12
    相关资源
    最近更新 更多