初识Java爬虫 - 爱码网

解决方式：模拟浏览器

解决方案：不同配置文件配置不同网站的模板规则
数据库存储不同网站的模板规则

解决方案HttpClient 默认处理方式
Storm 实时解析失败日志，将失败URL重新加入抓取仓库，一般超过三次就放弃

解决方案：购买代理IP库，随机获取IP抓取数据。
部署多个应用分别抓取，降低单节点频繁访问
设置每个页面抓取时间间隙，降低被封概率。

初识Java爬虫

初识Java爬虫

初识Java爬虫

数据采集模块
初识Java爬虫

数据分析
一个MR一个jar
所有MR打包成为一个jar
提供启动脚本或者托管给job调度平台
报表前台

数据监控与管理
初识Java爬虫

采集
1. HttpClient
2. HTMLCleaner
3. Xpath
4. 正则表达式
存储
1. HBase
2. Redis
处理
1. solr/es
展示
1. SpringMVC
2. freemarker
3. Jquery+HightChart

爬虫项目：多台服务器
网站爬虫分类URL定时项目：一台服务器
Hbase数据库：集群
Solr服务器：集群
Redis服务器：集群
爬虫监控项目:一台服务器
Web项目：多台服务器
Zookeeper服务器：集群

初识Java爬虫