1、区分

数据块: 物理
数据切片: 逻辑

2、决定机制

1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定
2、一个切片对应一个MapTask
3、默认情况下,切片大小==BlockSize(128M)
4、切片时不考虑数据集整体性,而是针对每个文件单独切片

总结:MapTask的数量,由客户端逻辑切片的数量决定,切片的大小默认为128M,
每个文件的切片是独立的。不用考虑整体数据

相关文章:

  • 2021-05-02
  • 2021-06-21
  • 2022-02-05
  • 2021-09-30
  • 2021-06-19
  • 2021-10-09
  • 2021-08-17
猜你喜欢
  • 2021-10-17
  • 2022-01-23
  • 2021-09-11
  • 2021-10-26
  • 2021-08-05
  • 2022-01-07
  • 2022-12-23
相关资源
相似解决方案