网络爬虫通用策略

1、通用爬虫框架：

选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾

已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合

2、禁抓协议：爬虫禁抓协议（robot.txt） + 网页禁抓协议（html中嵌入<meta name=\'robots\'）两类

3、衡量标准：网页覆盖率、网页时新性、网页重要性

4、抓取策略：宽度优先遍历策略、非完全pagerank策略、OPIC策略、大站优先策略

5、网页更新策略：历史参考策略、用户体验策略、聚类抽样策略

6、暗网抓取：百度『aladdin』 google『富含信息查询模板+ISIT算法』

7、分布式集群爬虫：主从式、对等式（利用一致性hash算法）