数据源有三个来源 1.自己的后端表(包括mysql和hive) 2.APP自己的埋点日志 3.其他部门的hive表 ODS层数据抽取 1.Flume抽取埋点日志 2.kafka抽取实时信息并存入HDFS 3.Sqoop抽取mysql表 DW层对数据进行加工 1.spark、hive直接处理表,归类成维度表和事实表 2.spark、MR处理日志文件成事实表 3.sparkstreaming直接处理kafak并进行数据加工 DA层 聚合DS层数据并提供给他人使用 相关文章: