【问题标题】:Sorting the output text file in hadoop, is there a way to view the output without sorting it? or using different sorting method?在hadoop中对输出文本文件进行排序,有没有办法在不排序的情况下查看输出?或使用不同的排序方法?
【发布时间】:2017-04-14 04:42:41
【问题描述】:

所以基本上我使用 mapreduce 来计算我保存在 hadoop 中的文本文件的字数,现在我想查看输出。

目前这是我在网上看到的唯一命令:

bin/hadoop fs -cat output/part-r-00000 | sort -k 2 -n -r | less

到目前为止,我只是对这个命令感到困惑,它只是对输出进行排序吗?我可以查看输出而不对其进行排序吗?

此命令是否按字母顺序排序 wordcount 显示所有内容?您是否有其他方法可以推荐对保存的文本文件进行排序,一本小说?

我也可以只查看wordcount的输出文件而不对其进行排序吗?

【问题讨论】:

    标签: sorting hadoop output word-count


    【解决方案1】:

    我可以在不排序的情况下查看输出吗?

    -cat

    bin/hadoop fs -cat output/part-r-00000 | less
    

    或者将输出文件从HDFS复制到Local FS并使用

    bin/hadoop fs -get output/part-r-00000  /tmp/output
    

    这个命令是否排序 wordcount 显示所有内容 否则按字母顺序?

    sort -k 2 -n -r:将第二列 (-k 2) 以数字 (-n) 倒序 (-r) 排序。

    假设第二列包含计数,这会将单词从出现次数最多到最少排序。至于不同的排序方式,我觉得这是更好的一种。如果要按字母顺序对内容进行排序,只需使用sort。参考sort manual

    【讨论】:

    • -cat 只是将 HDFS 文件的内容打印到标准输出。多次运行-cat 命令不会更改源。
    • 哦,我的意思是 1) 除了我发布的字数输出之外,您是否推荐任何其他方式来对字数的输出进行排序
    • 2) 在 ubuntu 上也有快速向下滚动输出的最后一页吗?我的字数输出太长了
    • 1) 你已经发布的那个更好。 2) 将-cat 输出通过管道传输到| less。查看更新的答案。
    • 先生,我该如何“管道”它,现在 cat 进程需要很长时间,然后又是一个非常大的文本文件
    猜你喜欢
    • 2023-03-19
    • 2016-11-14
    • 2019-03-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-03-07
    相关资源
    最近更新 更多