【发布时间】:2017-07-11 19:28:33
【问题描述】:
我在这里关注 HTTrack 文档示例:http://httrack.kauler.com/help/User-defined_structure
我需要抓取的网站具有这种结构的 URL:
https://www.example.com/index.php?HelpTopics
https://www.example.com/index.php?MoreHelp等等
使用 HTTrack,我想下载网站保存文件的格式
HelpTopics.htmlMoreHelp.html等
我在从上面链接的文档修改的命令行上使用它:
httrack "https://www.example.com" %n%[index.php?:-:::].%t
但我仍然将所有文件保存为 index2b26.html 和 index2de7.html 等。
我对 HTTrack 选项做错了什么?这是因为原始站点example.com 上没有文件扩展名吗?
【问题讨论】:
标签: html web-scraping wget httrack