在hadoop中对输出文本文件进行排序，有没有办法在不排序的情况下查看输出？或使用不同的排序方法？答案

【问题标题】：Sorting the output text file in hadoop, is there a way to view the output without sorting it? or using different sorting method?在hadoop中对输出文本文件进行排序，有没有办法在不排序的情况下查看输出？或使用不同的排序方法？
【发布时间】：2017-04-14 04:42:41
【问题描述】：

所以基本上我使用 mapreduce 来计算我保存在 hadoop 中的文本文件的字数，现在我想查看输出。

目前这是我在网上看到的唯一命令：

bin/hadoop fs -cat output/part-r-00000 | sort -k 2 -n -r | less

到目前为止，我只是对这个命令感到困惑，它只是对输出进行排序吗？我可以查看输出而不对其进行排序吗？

此命令是否按字母顺序排序 wordcount 显示所有内容？您是否有其他方法可以推荐对保存的文本文件进行排序，一本小说？

我也可以只查看wordcount的输出文件而不对其进行排序吗？

【问题讨论】：

标签： sorting hadoop output word-count

【解决方案1】：

我可以在不排序的情况下查看输出吗？

就-cat吧

bin/hadoop fs -cat output/part-r-00000 | less

或者将输出文件从HDFS复制到Local FS并使用

bin/hadoop fs -get output/part-r-00000  /tmp/output

这个命令是否排序 wordcount 显示所有内容否则按字母顺序？

sort -k 2 -n -r：将第二列 (-k 2) 以数字 (-n) 倒序 (-r) 排序。

假设第二列包含计数，这会将单词从出现次数最多到最少排序。至于不同的排序方式，我觉得这是更好的一种。如果要按字母顺序对内容进行排序，只需使用sort。参考sort manual。

【讨论】：

-cat 只是将 HDFS 文件的内容打印到标准输出。多次运行-cat 命令不会更改源。
哦，我的意思是 1) 除了我发布的字数输出之外，您是否推荐任何其他方式来对字数的输出进行排序
2) 在 ubuntu 上也有快速向下滚动输出的最后一页吗？我的字数输出太长了
1) 你已经发布的那个更好。 2) 将-cat 输出通过管道传输到| less。查看更新的答案。
先生，我该如何“管道”它，现在 cat 进程需要很长时间，然后又是一个非常大的文本文件