【问题标题】:How do I get httrack to save files with their original names rather than index****.html?如何让 httrack 以原始名称而不是 index****.html 保存文件?
【发布时间】:2017-07-11 19:28:33
【问题描述】:

我在这里关注 HTTrack 文档示例:http://httrack.kauler.com/help/User-defined_structure

我需要抓取的网站具有这种结构的 URL:

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

等等

使用 HTTrack,我想下载网站保存文件的格式

HelpTopics.htmlMoreHelp.html

我在从上面链接的文档修改的命令行上使用它:

httrack "https://www.example.com" %n%[index.php?:-:::].%t

但我仍然将所有文件保存为 index2b26.htmlindex2de7.html 等。

我对 HTTrack 选项做错了什么?这是因为原始站点example.com 上没有文件扩展名吗?

【问题讨论】:

    标签: html web-scraping wget httrack


    【解决方案1】:

    我发现使用wget 以原始名称保存文件要容易得多。这样做:

    wget --mirror -p --convert-links --content-disposition --trust-server-names -P examplefolder http://www.example.com

    【讨论】:

    • 你能告诉我一个简单的 wget 命令来获取一个名为 buddhadust.net 的整个网站吗?我在保留文件扩展名时遇到问题 htm 是原始的,而 httrack 下载的 html 不好。
    【解决方案2】:

    从链接中,%[param:before:after:empty:notfound] 中的 param 应该是 GET 查询中的变量。由于您的 URL 没有变量,我认为默认文件名是正确的。

    【讨论】:

      猜你喜欢
      • 2014-07-12
      • 1970-01-01
      • 2013-03-12
      • 2022-08-21
      • 1970-01-01
      • 2019-05-19
      • 1970-01-01
      • 2018-03-24
      • 2012-04-17
      相关资源
      最近更新 更多