【发布时间】:2019-08-01 22:34:07
【问题描述】:
我有一些导出文件,你可以假设它们在一行中有很多单词并且没有一行是特殊的。我看到这篇文章在文件中生成不同的单词
文件中还有一些其他的单词搜索变体。
但是对于长度为 4 的子字符串,我需要这样的东西。这里我们有子字符串和它的计数。
示例文件内容
no apples
no apples
mango is great
banana is expensive
test
示例输出是
appl 2
pple 2
ples 2
mang 1
ango 1
grea 1
reat 1
bana 1
anan 1
nana 1
expe 1
xpen 1
pens 1
ensi 1
sive 1
nsiv 1
test 1
子字符串不一定有任何意义,它们只是文件的子字符串。文件不大,最坏的情况下不到5MB,实际上有多个文件但我在分析之前将它们合并了。
我想在 SO 中询问,因为如果这需要编写一个 shell/phyton 脚本,但是如果我们可以使用命令轻松地做到这一点,那就更感激了。
【问题讨论】:
标签: python macos shell unix awk