58招聘数据仓库技术架构图

数据源有三个来源

1.自己的后端表(包括mysql和hive)
2.APP自己的埋点日志
3.其他部门的hive表

ODS层数据抽取

1.Flume抽取埋点日志
2.kafka抽取实时信息并存入HDFS
3.Sqoop抽取mysql表

DW层对数据进行加工

1.spark、hive直接处理表,归类成维度表和事实表
2.spark、MR处理日志文件成事实表
3.sparkstreaming直接处理kafak并进行数据加工

DA层

聚合DS层数据并提供给他人使用

相关文章: