unix tr 查找和替换答案

【问题标题】：unix tr find and replaceunix tr 查找和替换
【发布时间】：2012-01-11 02:17:20
【问题描述】：

这是我在标准网页上使用的命令，我来自网站 wget。

tr '<' '\n<' < index.html

但是它给了我换行符，但没有再次添加左侧中断。例如

 echo "<hello><world>" | tr '<' '\n<'

 (blank line which is fine)
 hello>
 world>

而不是

 (blank line or not)
 <hello>
 <world>

怎么了？

【问题讨论】：

标签： unix sed awk tr

【解决方案1】：

那是因为tr 只进行逐字符替换（或删除）。

改用sed。

echo '<hello><world>' | sed -e 's/</\n&/g'

或awk。

echo '<hello><world>' | awk '{gsub(/</,"\n<",$0)}1'

或perl。

echo '<hello><world>' | perl -pe 's/</\n</g'

或ruby。

echo '<hello><world>' | ruby -pe '$_.gsub!(/</,"\n<")'

或python。

echo '<hello><world>' \
| python -c 'for l in __import__("fileinput").input():print l.replace("<","\n<")'

【讨论】：

【解决方案2】：

这对你有用吗？

awk -F"><" -v OFS=">\n<" '{print $1,$2}'

[jaypal:~/Temp] echo "<hello><world>" | awk -F"><" -v OFS=">\n<" '{$1=$1}1';
<hello>
<world>

您可以在 awk {} 操作前面放置一个正则表达式 //（您希望发生这种情况的行）。

【讨论】：

【解决方案3】：

如果你有 GNU grep，这可能对你有用：

grep -Po '<.*?>[^<]*' index.html

它应该通过所有的 HTML，但是每个标签应该从行首开始，可能的非标签文本在同一行之后。

如果你只想要标签：

grep -Po '<.*?>' index.html

不过，您应该知道，使用正则表达式解析 HTML 是 not a good idea。

【讨论】：

【解决方案4】：

放置换行符的顺序很重要。您也可以转义“

`tr '<' '<\n' < index.html`

同样有效。

【讨论】：