【问题标题】:Download all pdf files using wget使用 wget 下载所有 pdf 文件
【发布时间】:2013-11-21 21:08:00
【问题描述】:

我有以下网站http://www.asd.com.tr。我想将所有 PDF 文件下载到一个目录中。我尝试了几个命令,但运气不佳。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

使用此代码仅下载了四个 PDF 文件。检查此链接,有数千个 PDF 可用:

例如,数百个文件位于以下文件夹中:

但我不知道如何正确访问它们以查看和下载它们,这个子目录http://www.asd.com.tr/Folders/ 中有一些文件夹,这些文件夹中有数千个 PDF。

我尝试使用-m 命令镜像站点,但也失败了。

还有什么建议吗?

【问题讨论】:

  • 我只是想为 wget 做例子,我是土耳其人,这个网站很受欢迎..就是这样。没有冒犯兄弟..

标签: wget


【解决方案1】:

首先,验证网站的 TOS 是否允许抓取它。然后,一种解决方案是:

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

mech-dump 命令带有 Perl 的模块 WWW::Mechanizelibwww-mechanize-perl 软件包在 debian 和 debian like distros 上)

【讨论】:

猜你喜欢
  • 1970-01-01
  • 2012-08-29
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多