为了全部爬取一个网站,首先想到的是使用wget,但是爬下来的网站有个问题,那就是在看的时候所有超链接没有发生变化,所以考虑着使用一种功能更为强大的工具来抓取网页。那么,搜一下就会发现webhttrack应该是用的非常多的一款工具。

  1. 安装
    安装过程非常简单,在ubuntu下使用下面的命令即可完成安装:
sudo apt-get install httrack webhttrack
  1. 运行
    直接在命令行中打开webhttrack,会提示“权限不够”的错误。

接下来使用sudo来执行,结果出现了“–no-sandbox”的错误。

原来这个问题是跟浏览器相关,因为我系统中默认的浏览器使用的是chrome,而且在运行chrome的时候,必须要使用“–no-sandbox”,所以,需要使用firefox浏览器来解决这个问题。

编辑/usr/bin/webhttrack,同时设置

BROWSEREXE="firefox"

并且注释掉SRCHBROWSEREXE。然后,就可以看到:
如何安装和使用webhttrack

相关文章:

  • 2021-07-14
  • 2021-08-05
  • 2022-01-30
  • 2022-12-23
  • 2022-12-23
  • 2021-04-14
  • 2021-07-08
  • 2021-12-15
猜你喜欢
  • 2021-06-03
  • 2023-02-21
  • 2021-11-15
  • 2021-12-15
  • 2021-05-19
  • 2022-12-23
  • 2021-09-15
相关资源
相似解决方案