1.yarn的服务进程
1)Resource Manager
nodemanager的大哥,客户端提交任务后,Job需要多少容器,需要RM来分配,需要在主节点上(不建议)或者单独一台服务器来配置RM
2)Node Manager
RM将容器信息给nodemanager,NM开辟一个运算资源(内存+cpu),用于创建maptask的容器
2.MR核心编程思想
1)图中需求:统计a-z的单词出现次数,文件大小为200M,a-i,j-z的统计结果分别存到两个文件
2)客户端提交文件->maptask->分切数据->redutask->数据累加->输出文件,有多少个reducetask就会有多少个文件输出