liuhao

假如有如下保存url的文件all_urls:

http://www.baidu.com
http://www.sina.com
http://www.baidu.com
http://www.sohu.com
http://www.baidu.com
http://www.sina.com

想统计不同url出现的次数,并按照从大到小的顺序排列,只需一行简单的shell脚本就可以了:

cat all_urls|sort|uniq -c |sort -k1 -nr|awk \'{print $2}\'

结果如下:

http://www.baidu.com
http://www.sina.com
http://www.sohu.com

千万量级以内的统计,都可以随手计算,计算时间在可以接受的范围内,无需动用mapreduce。

分类:

技术点:

相关文章:

  • 2021-11-29
  • 2021-12-28
  • 2021-12-28
  • 2021-12-28
  • 2021-05-19
  • 2021-11-29
  • 2020-04-24
  • 2021-11-02
猜你喜欢
  • 2021-11-23
  • 2021-12-28
  • 2021-11-02
  • 2021-11-02
  • 2021-05-27
  • 2021-12-28
  • 2021-11-29
相关资源
相似解决方案