1, 使用hive标记random:(如果是mr,就自己标记random值)
use ps;
set mapred.job.priority=VERY_HIGH;
set mapred.job.map.capcity=300;
set mapred.reduce.tasks=200;
 
insert overwrite directory "*"
select url, count(1), min(link_found_time), rand()
from entry
where *='20151106'
group by url;
 
2, 数据抽样:
在各个分区各使用小顶推实现top-N,
 
3, 得到top-N
TopN:使用小顶堆实现。
 

 

相关文章:

  • 2021-11-09
  • 2021-08-14
  • 2021-06-13
  • 2021-12-31
  • 2021-07-15
  • 2022-12-23
  • 2021-12-26
  • 2021-11-28
猜你喜欢
  • 2021-07-11
  • 2021-10-11
  • 2021-04-21
  • 2021-11-21
  • 2022-12-23
  • 2022-12-23
  • 2021-12-18
相关资源
相似解决方案