Chuwa是Yahoo!贡献给Apache的基于Hadoop开发的数据采集与分析的框架,用来支持大型分布式系统的海量日志的收集与分析工作,它具有良好的适用性和可扩展性,天生支持与MapReduce协同进行数据处理,能提供完整的数据收集与分析的解决方案。

Chuwa主要由5个关键部分构成:
    1.Agent运行在每个节点之上,负责采集每个节点的原始数据,并发送数据给Collector。
    2.Collector负责接收Agent所发送的数据,并且写入到稳定的存储当中。
    3.ETL数据处理任务,负责数据解析和归档。
    4.数据分析脚本任务,如PigLatin等,以及MapReduce数据分析job,负责对收集的数据进行分析。
    5.HICC,即the Hadoop Infrastucture Care Center,Hadoop基础管理平台,提供数据展现的Web页面。

Chuwa 数据采集与分析框架

        运行在应用服务器上的Chuwa Agent 通过initial_adaptors文件配置的Adaptor来对服务器上的日志进行收集,收集以后将日志发送给Collector集群,Collector负责将数据sink到HDFS,通过定期运行MapReduce任务将数据转换成结构化数据,为防止出现单点故障,Collect支持扩展,Chuwa可以拥有多个Collect,Agent从collectors文件中随机选择一台Collector进行数据传输,当某个Collector宕机或繁忙时,能够转换到其他的Collector继续处理,进行相应的容错。

 

相关文章:

  • 2022-12-23
  • 2021-05-14
  • 2022-01-08
  • 2021-08-21
  • 2021-09-16
  • 2021-09-15
  • 2021-12-10
  • 2021-11-29
猜你喜欢
  • 2022-01-20
  • 2021-08-01
  • 2022-12-23
  • 2021-12-12
  • 2022-01-13
  • 2021-12-06
  • 2021-12-13
相关资源
相似解决方案