大致架构如下图:
主要流程分为离线和实时两个部分:
离线部分:收集日志,然后将日志处理为规定格式(日志清洗)上传到HDFS,然后跑相应的MR.将处理后的数据通过各种算法或者查询计算后的结果存储到方便快速读取的
数据库中(Mysql,redis....),留给后期Web服务查询使用.
实时部分:日志收集处理为实时进行的,使用strom或者spark直接处理执行相应的算法逻辑,得出结果存储到数据库中
大的部分是这两块,还有个性化系统用的用户画像在推荐中的作用也很重要.这里就不说了.
大致架构如下图:
主要流程分为离线和实时两个部分:
离线部分:收集日志,然后将日志处理为规定格式(日志清洗)上传到HDFS,然后跑相应的MR.将处理后的数据通过各种算法或者查询计算后的结果存储到方便快速读取的
数据库中(Mysql,redis....),留给后期Web服务查询使用.
实时部分:日志收集处理为实时进行的,使用strom或者spark直接处理执行相应的算法逻辑,得出结果存储到数据库中
大的部分是这两块,还有个性化系统用的用户画像在推荐中的作用也很重要.这里就不说了.
相关文章: