【发布时间】:2010-11-09 20:06:53
【问题描述】:
现代 Unix shell 环境有很多好东西,我需要的东西几乎总是安装在我的机器上或快速下载;麻烦只是找到它。在这种情况下,我试图找到基本的统计操作。
例如,现在我正在设计一个基于爬虫的应用程序的原型。感谢 wget 加上其他一些好东西,我现在有几十万个文件。因此,我可以估计对数十亿个文件执行此操作的成本,我想获得超过一定限制的文件大小的平均值和中位数。例如:
% ls -l | perl -ne '@a=split(/\s+/); next if $a[4] <100; print $a[4], "\n"' > sizes
% median sizes
% mean sizes
当然,我可以用一点点 perl 或 awk 编写自己的中位数和均值位。但是是不是已经有一些对新手友好的软件包可以做到这一点以及其他更多功能?
【问题讨论】:
标签: unix r shell statistics