buoge

 

从3月份到现在2个月过去了,整个数据平台从0到1,算是有了一个基本的样子,跌跌撞撞的勉强支撑起运营的一些基本业务,当然这仅仅是开始,接下来总结下自己这段时间的得失,以及下一阶段的演化目标

 

关于产品架构的原则可以查看这里,我分了两篇来写:

https://www.cnblogs.com/buoge/p/9093096.html 

 

目前的架构方式是这样的:

  • 从使用Sqoop 定时从MySQL中同步数据,数据量大只能小水管的去fetch每次5-10W条记录,避免数据库压力过大
  • Flume tailagent 每汇总一小时然后传递logcenter,通过Python过滤后批量的Load到hive中
  • 每日的报表在Hive的基础上会跑一些 MR 的Job, 作为每日的固化查询。

目前的缺点和不足:

  • 问题:日志读取,Hive入库和完成后删除log日志原始文件没有做完整的事务控制,load失败或是任务失败,原始日志已经删除了,尴尬

分类:

技术点:

相关文章:

  • 2021-08-18
  • 2021-12-16
  • 2021-12-08
  • 2021-12-27
  • 2021-12-20
  • 2021-12-13
  • 2021-10-07
猜你喜欢
  • 2018-12-25
  • 2021-12-13
  • 2021-03-31
  • 2021-06-04
  • 2021-11-13
  • 2021-11-23
  • 2021-07-15
相关资源
相似解决方案