【发布时间】:2014-03-23 00:47:15
【问题描述】:
<li><b> Some Text:</b></li><li><b> Some Text:</b></li>
<pg>something else</pg> <li><b> Some Text:</b> </li>
<li><b> Some Text:</b></li>
<li><b> Some Text:</b> More Text </li> <li><b> Some Text:</b> More Text </li>
如果这是我的输入字符串和
Some Text:
Some Text:
Some Text:
Some Text: More Text
Some Text: More Text
这是我的输出但我得到的只是
Some Text:
Some Text:
Some Text: More Text
这是我在linux中的shell脚本函数
#!/bin/sh
sed -n -e 's/.*<li>\(.*\)<\/li>.*/\1/p' $1 > temp
sed -e 's/<[<\/b]*>//g' temp >out
请给我一些想法,哪里出错了。
【问题讨论】:
-
不要用
sed或awk解析HTML;sed设计用于基于行的编辑,awk用于基于字段的任务。两者都不适合元素可能跨越多行的一般结构化文本。