httrack

爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样。HTTrack也可以更新现有的镜像站点,并恢复中断的下载。HTTrack完全可配置,并具有集成的帮助系统。

使用过程

前提:保证两台机器能ping通

  1. 新建一个目录存放爬下来的网页和数据
    mkdir pikachu
  2. 输入项目名字pikachu
    填写要保存到什么路径
    访问网站的起始路径
    Httrack
  3. 选择Action
    (1)直接镜像;
    (2)用向导完成镜像(一般选择这个)
    (3)只要某种类型文件,比如doc,pdf
    (4)镜像当前地址下所有链接
    (5)只测试当前地址所有连接,只是测试
    Httrack
  4. 可以定义一些字符,用来爬特定类型的数据,如果全部类型数据都爬得话,设置*
    开始爬取Httrack
  5. 爬取完成后,root文件夹下出现pikachu文件夹,里面保存有结果
    Httrack
    Httrack

相关文章:

  • 2021-12-21
  • 2022-02-07
  • 2021-03-30
  • 2022-01-12
  • 2022-03-07
  • 2021-10-17
  • 2021-11-20
猜你喜欢
  • 2021-06-11
  • 2021-12-02
  • 2022-12-23
  • 2022-12-23
  • 2021-12-02
  • 2021-10-13
相关资源
相似解决方案