1. 项目需求分析
搜狗用户日志分析系统
1. 项目业务需求
2.采集用户海量浏览日志信息
3.实时统计分析TopN用户浏览最高的新闻话题
4.实时统计分析已经曝光的新闻话题总量
5.实时统计用户新闻浏览量最高的时间段
2. 系统架构设计
3. 数据流程设计
4. 集群角色规划
| hadoop1 | hadoop2 | hadoop3 | |
|---|---|---|---|
| hdfs(nn) | 是 | 是 | |
| hdfs(dn) | 是 | 是 | 是 |
| yarn(rm) | 是 | 是 | |
| yarn(nm) | 是 | 是 | 是 |
| journalnode | 是 | 是 | 是 |
| zookeeper | 是 | 是 | 是 |
| hive | 是 | ||
| hbase(master) | 是 | 是 | |
| hbase(rs) | 是 | 是 | 是 |