InputFormat有两个抽象方法:

getSplits     createRecordReader
 
InputSplits 将数据按照Split进行切分,一个Split分给一个task执行。
RecordReader 在Task中将Split按照key value进行切分,每个RecordReader切分的数据都给map方法执行一遍。
 
RecordReader三个抽象方法:
initialize     用来seek位置等
getCurrentKey getCurrentValue   map读取key value
nextKeyValue     生成key value
getProgress
close
 
OutputFormat     RecordWriter
 
OutputFormat抽象方法
checkOutputSpecs
getRecordWriter
 
OutputCommitter做繁重的工作,如create目录,rename,close等 

相关文章:

  • 2022-12-23
  • 2021-04-06
  • 2022-12-23
  • 2022-12-23
  • 2021-06-12
  • 2021-09-08
  • 2021-06-02
  • 2021-09-06
猜你喜欢
  • 2022-12-23
  • 2022-01-12
  • 2021-10-19
  • 2022-12-23
  • 2022-12-23
  • 2021-11-24
相关资源
相似解决方案