前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。

有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没

 

 

缓存,分组,排序,转发,这些都是mr的shuffle。

Soga

 

 

现在。来观察map阶段有几个yarnchild,reduce阶段有几个yarnchild。对应地,就是有多少个map的并发任务数,有多少个reduce的并发任务数

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

以上我,查看有多少个map并发任务数

 

3  weekend110的shuffle机制  + mr程序的组件全貌

查看map并发任务数之后,进程被回收。

 

3  weekend110的shuffle机制  + mr程序的组件全貌

查看reduce并发任务数

 

3  weekend110的shuffle机制  + mr程序的组件全貌

Reduce的Task进程被回收

 

 

总的来说,

生成个Runjar  ->  生成个MRAppMaster(运行map任务) -> 查看map并发任务数 ->

Map的Task进程被回收  ->查看reduce并发任务数 -> Reduce的Task进程被回收 –> 

 

3  weekend110的shuffle机制  + mr程序的组件全貌

以上是/flow/data

其实啊,前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。

有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没(是在分片中控制的)。

 

下面,来将在/flow/data中,分片控制map的并发任务数

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

Soga,原来是如此

 

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

 

缓存,分组,排序,转发,这些都是mr的shuffle。

Soga

 

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

 

3  weekend110的shuffle机制  + mr程序的组件全貌

 

 3  weekend110的shuffle机制  + mr程序的组件全貌

 

 3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

以上是weekend110的shufle机制,部分在前面都讲了。

 

 

 

 

 

下面是weekend110的mr程序的组件全貌

 3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

 

 

 

往数据库、HBase、ftp、hdfs(默认是往hdfs写),文件,,,用户不用管,特推出mr程序的组件------OutputFormat

 3  weekend110的shuffle机制  + mr程序的组件全貌

 

 3  weekend110的shuffle机制  + mr程序的组件全貌

 

 

比如,对于图片,视频,,,这些,InputFormat,就不能了。

 

 3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

可以看到,DBInputFormat是去数据库里读,

 

3  weekend110的shuffle机制  + mr程序的组件全貌

3  weekend110的shuffle机制  + mr程序的组件全貌

可以看到,DBOutputFormat是往数据库里写,

 

 

这里,只是想看下InputFormat和OutputFormat

3  weekend110的shuffle机制  + mr程序的组件全貌

 

恢复

 

相关文章:

  • 2021-12-24
  • 2022-12-23
  • 2021-10-11
  • 2021-06-29
  • 2022-01-05
  • 2022-12-23
  • 2021-10-01
猜你喜欢
  • 2021-08-14
  • 2021-04-06
  • 2021-07-10
  • 2021-04-13
  • 2022-01-07
  • 2021-11-10
  • 2022-01-09
相关资源
相似解决方案