问题

PNP : Work Cound & Frequence

问题很简单,shell的几个命令就可以搞定。

但是,如果输入文件很大不能一次载入内存呢?
文件分布在多个机器上呢?

文件可以全部载入内存

PNP : Work Cound & Frequence

文件太大不能一次载入内存

对于此类问题,即大数据问题,可以使用MapReduce

PNP : Work Cound & Frequence

两个MapReduce
第一个MapReduce: WordCount

  • 把每个单词映射成Key-Value pair (Map)
  • 把key相同的value加起来 (Reduce)

此外两步中间有一个shuffle,Hadoop中叫Partitioner,即怎么把中间结果分配到不同机器上去,这里使用HashPartitioner,具有相同hash的单词会分配到相同的Partitioner上。

第二个Sort by Count

  • InverserMapper :把key-value 倒过来
  • TotalOrderPartitioner 按次数排序

    PNP : Work Cound & Frequence

单词做hash然后存到不同的shard中(磁盘文件,这样可以对每个shard单独进行sort,最后再merge),这里使用10个shard,那么10GB的数据,每个shard就是1GB数据,然后对每个shard做wordcount(此时可以在内存中做了,每个shard大小小于4GB),最后merge 10个shard到一个output文件(多路归并)。

N-way merge using heap

PNP : Work Cound & Frequence

  1. 取这N个shard的最大元素,做成堆
  2. pop head 就可以得到最大的元素,假设它输入第i个shard
  3. 然后第i个shard再提供一个元素,插入堆,返回第2步。

注意,有可能某个shard提前都用完了,此时堆的大小就变小了。

多机求解

把每个机器看成一个shard,思路同上

PNP : Work Cound & Frequence

PNP : Work Cound & Frequence

相关文章:

  • 2021-08-30
  • 2021-05-31
  • 2021-12-09
  • 2021-04-21
  • 2021-11-26
  • 2021-06-21
  • 2021-07-12
  • 2021-08-12
猜你喜欢
  • 2021-07-04
  • 2022-01-07
  • 2022-12-23
  • 2021-12-17
  • 2022-12-23
  • 2021-04-06
  • 2021-10-11
相关资源
相似解决方案