如何让 httrack 以原始名称而不是 index****.html 保存文件？答案

【问题标题】：How do I get httrack to save files with their original names rather than index****.html?如何让 httrack 以原始名称而不是 index****.html 保存文件？
【发布时间】：2017-07-11 19:28:33
【问题描述】：

我在这里关注 HTTrack 文档示例：http://httrack.kauler.com/help/User-defined_structure

我需要抓取的网站具有这种结构的 URL：

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

等等

使用 HTTrack，我想下载网站保存文件的格式

HelpTopics.htmlMoreHelp.html等

我在从上面链接的文档修改的命令行上使用它：

httrack "https://www.example.com" %n%[index.php?:-:::].%t

但我仍然将所有文件保存为 index2b26.html 和 index2de7.html 等。

我对 HTTrack 选项做错了什么？这是因为原始站点example.com 上没有文件扩展名吗？

【问题讨论】：

标签： html web-scraping wget httrack

【解决方案1】：

我发现使用wget 以原始名称保存文件要容易得多。这样做：

wget --mirror -p --convert-links --content-disposition --trust-server-names -P examplefolder http://www.example.com

【讨论】：

你能告诉我一个简单的 wget 命令来获取一个名为 buddhadust.net 的整个网站吗？我在保留文件扩展名时遇到问题 htm 是原始的，而 httrack 下载的 html 不好。

【解决方案2】：

从链接中，%[param:before:after:empty:notfound] 中的 param 应该是 GET 查询中的变量。由于您的 URL 没有变量，我认为默认文件名是正确的。

【讨论】：