一、配置larbin.conf文件

Larbin.conf是larbin的基本配置文件,里面有很多的配置选项,以下我只列举我经常用到的一些。

httpPort

8081

利用web查看时的端口号

pagesConnexions 

100 

并行链接的最大数目

pagesConnexions

100

并行链接的最大数目

depthInSite

 5

爬虫的深度

waitDuration

30

连续两次访问统一个服务器的间(以秒为单位)

startUrl

http://www.tianya.cn

种子页面

limitToDomain

 tianya.cn end

域名的限制,可以加入多个,以end结尾

二、配置option.h


//#define DEFAULT_OUTPUT do nothing...
#define SIMPLE_SAVE // save in files named save/dxxxxxx/fyyyyyy
//#define MIRROR_SAVE // save in files (respect sites hierarchy)
//#define STATS_OUTPUT // do some stats on pages

option.h我用到的主要配置就是output module 。Larbin有四种output module:default、simple、mirror和stats。

default:不会保存任何的东西。

simple: 简单的把html文件按域名为文件夹分开,文件以fxxxx命名。xxxx为编号,还会有一个index文件,建议编号和url的对应。

mirror: 把html文件按照它在网站上的结构保存。如http://www.cnblogs.com/lovesaber/archive/2012/02/28/2371618.html则会保存在文件夹cnblogd.com/lavesaber/archive/2012/02/28目录下,且文件名为2371618.html。

 

配置好上面的一些参数后,就可以输入./larbin运行larbin了。运行后可以通过web进行查看。在浏览器中输入http://localhost:8081/可以查看现在的爬虫状态,如下图。

Larbin的使用--配置

  

 

 

 

 

 

 

 

相关文章:

  • 2021-08-07
  • 2021-04-01
  • 2021-12-13
  • 2021-06-28
  • 2021-05-08
  • 2021-05-02
  • 2021-08-01
  • 2021-07-10
猜你喜欢
  • 2021-08-23
  • 2021-12-09
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-10-25
相关资源
相似解决方案