【发布时间】:2010-12-11 22:33:25
【问题描述】:
我正在寻找一种简单的方法来查找文件中最长行的长度。理想情况下,它应该是一个简单的 bash shell 命令而不是脚本。
【问题讨论】:
我正在寻找一种简单的方法来查找文件中最长行的长度。理想情况下,它应该是一个简单的 bash shell 命令而不是脚本。
【问题讨论】:
使用 wc (GNU coreutils) 7.4:
wc -L filename
给予:
101 filename
【讨论】:
-c -l -m -w 选项是 POSIX。 -L 是 GNU 主义。
-L 的结果取决于语言环境。有些字符(无论是字节还是多字节)甚至可能根本不计算在内!
wc: illegal option -- L usage: wc [-clmw] [file ...]
gwc 在coreutils 公式中,它会安装所有带有g 前缀的GNU coreutils。
awk '{print length, $0}' Input_file |sort -nr|head -1
【讨论】:
END{} 块中打印出来。
awk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }' YOURFILE
【讨论】:
awk '{ if (length($0) > max) max = length($0) } END { print max }' YOURFILE
awk 'length>max{max=length}END{print max}' file
awk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }' YOURFILE | wc -c
... END { print length(maxline) + 1} wc -c 仍然会比最长记录少一个字节,因为 awk 会去掉换行符。
仅出于娱乐和教育目的,纯 POSIX shell 解决方案,没有无用的 cat 使用,也没有分叉外部命令。将文件名作为第一个参数:
#!/bin/sh
MAX=0 IFS=
while read -r line; do
if [ ${#line} -gt $MAX ]; then MAX=${#line}; fi
done < "$1"
printf "$MAX\n"
【讨论】:
< "$1" 它可以轻松地从标准输入读取。通过对$# 的测试,它甚至可以同时进行这两种操作,具体取决于参数的数量。这个世界上根本不需要没用的猫。应该从一开始就对新手进行相应的教育。
longest < /usr/share/dict/words
wc -L < filename
给予
101
【讨论】:
wc 输出文件名:)
perl -ne 'print length()." line $. $_"' myfile | sort -nr | head -n 1
打印最长行的长度、行号和内容
perl -ne 'print length()." line $. $_"' myfile | sort -n
打印所有行的排序列表,包括行号和长度
. 是连接运算符 - 在 length() 之后使用这里$. 是当前行号$_ 是当前行
【讨论】:
wc -L 是我目前看到的最好的解决方案。
wc -L 耗时 3 秒
wc -L 只计算数字记录 - 这个 Q 即将找到 longest 行 - 不太一样,所以这不是准确的比较。
看起来所有的答案都没有给出最长行的行号。以下命令可以给出行号和大致长度:
$ cat -n test.txt | awk '{print "longest_line_number: " $1 " length_with_line_number: " length}' | sort -k4 -nr | head -3
longest_line_number: 3 length_with_line_number: 13
longest_line_number: 4 length_with_line_number: 12
longest_line_number: 2 length_with_line_number: 11
【讨论】:
awk '{print length}' test.txt | sort -rn | head -1。如果你也需要实际行的内容,那么awk '{print length,$0}' test.txt | sort -k1 -rn| head -1
以上示例中被忽略的重要一点。
以下 2 个示例计算扩展选项卡
wc -L <"${SourceFile}"
# or
expand --tabs=8 "${SourceFile}" | awk '{ if (length($0) > max) {max = length($0)} } END { print max }'
以下 2 个计数未展开的选项卡。
expand --tabs=1 "${SourceFile}" | wc -L
# or
awk '{ if (length($0) > max) {max = length($0)} } END { print max }' "${SourceFile}"
所以
Expanded nonexpanded
$'nn\tnn' 10 5
【讨论】:
在 perl 中:
perl -ne 'print ($l = $_) if (length > length($l));' filename | tail -1
这只会打印行,而不是长度。
【讨论】:
【讨论】:
我在 Unix 环境中,使用大小为几 GB 的 gzip 压缩文件。我使用记录长度为 2052 的 2 GB gzip 压缩文件测试了以下命令。
zcat <gzipped file> | wc -L和
zcat <gzipped file> | awk '{print length}' | sort -u时间是平均的
117 秒
109 秒
这是我运行了大约 10 次后的脚本。
START=$(date +%s) ## time of start
zcat $1 | wc -L
END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"
START=$(date +%s) ## time of start
zcat $1 | awk '{print length}' | sort -u
END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"
【讨论】:
awk 版本会受益于首先运行的wc 版本的磁盘块缓存(并为磁盘缓存提供种子) .您必须随机化在十次运行中谁首先被调用的顺序,以使这个论点成立。
只是为了好玩,这里是 Powershell 版本:
cat filename.txt | sort length | select -last 1
并且只是得到长度:
(cat filename.txt | sort length | select -last 1).Length
【讨论】:
sort 可以将 filename.txt 作为参数吗?那么猫就没有用了,因为sort length filename.txt | select -last 1 避免了一个管道和一个只复制数据的进程。
主题的变化。
这将显示 所有 行,其长度与文件中找到的最长行相同,并保持它们在源中出现的顺序。
FILE=myfile grep `tr -c "\n" "." < $FILE | sort | tail -1` $FILE
所以我的文件
x
mn
xyz
123
abc
会给
xyz
123
abc
【讨论】:
如果您使用的是 MacOS 并收到此错误:
wc: illegal option -- L 你不需要安装 GNU siply 这样做。
如果您只想获取文件最长行中的字符数并且您正在使用 OS X 运行:
awk '{print length}' "$file_name" | sort -rn | head -1
类似的东西;
echo "The longest line in the file $file_name has $(awk '{print length}' "$file_name" | sort -rn | head -1) characters"
输出:
The longest line in the file my_file has 117 characters
【讨论】: