大数据的概念丰富而系统,正如很多人认识的那样,大数据并不是一个单纯的概念,并不像java、python那么单一,其内涵非常的丰富。Oozie作为大数据开发中的一个重点,无论是对于企业还是个人都无法忽视,所以,我们不妨来简单分析一下oozie。

简单分析Oozie,了解大数据丰富而系统的内涵

第一、oozie的基础概念

Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。是服务于Hadoop生态系统的工作流调度工具,Job运行平台是区别于其他调度工具的最大的不同。但其实现的思路跟一般调度工具几乎完全相同。Oozie其实没有大家想象中那么神秘,只要你明白了它的调度思路,那么学习起来将非常的简单。

第二:oozie的工作流程

一个正常工作的Oozie系统须包含如下四个模块:Oozie Client、Oozie Server、DataBase和Hadoop集群。

1、Oozie Client可以通过Web Service API、Java API、Command line 方式向Oozie Server提交工作流任务请求。Oozie客户端可以通过REST API或者Web GUI来从Oozie服务端获取Job的日志流。通常在Client端包括工作流配置文件、工作流属性文件和工作流库。

2、Oozie Server负责接收客户端请求、调度工作任务、监控工作流的执行状态。Oozie本身不会执行具体的Job,而是将Job的配置信息发送到执行环境。

3、DataBase用于存储Bundle、Coordinator、Workflow工作流 的Action信息、Job信息,记录Oozie系统信息。简单说,除了Oozie 运行日志存在本地硬盘不存在DB中,其他信息都存储到DB。

4、Hadoop集群运行Oozie工作流的实体,负责处理Oozie Server提交来的各种Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop组件提交的Job。

第三、oozie任务的三种模式

1、workflow: 这种方式最简单,就是定义DAG来执行。

2、coordinator:它构建在workflow工作方式之上,提供定时运行和触发运行任务的功能。

3、bundle: bundle的作用就是将多个coordinator管理起来。这样我们只需要提供一个bundle提交即可。然后可以start/stop/suspend/resume任何coordinator。

工作流嘛,顾名思义,就是我要干一件事,需要很多步骤,然后有序组合,最终达到能够完成这件事的目的。 其实,就是以数据的方式,让工作流程更加的详细,能够更加省时省力的完成工作。

大数据其实就是发觉更加细微的规律,让不被发现的规律绽放更大的价值。Oozie在大数据中的地位至关重要,在企业、分析师的眼中其价值体现的愈加明显,当然,这里只是简单的分析了一下oozie的含义,希望对大家有所帮助。

相关文章:

  • 2021-08-19
  • 2021-08-30
  • 2022-12-23
  • 2021-08-01
  • 2021-11-09
  • 2021-12-15
  • 2022-12-23
  • 2021-12-31
猜你喜欢
  • 2021-11-26
  • 2021-06-28
  • 2021-09-10
  • 2021-07-20
  • 2021-08-30
  • 2021-10-08
  • 2021-08-13
相关资源
相似解决方案