【发布时间】:2019-07-17 18:18:46
【问题描述】:
我需要从网站 grep 信息,它的存储方式如下:
<div class="name">Mark</div>
<div class="surname">John</div>
<div class="phone">8434</div>
等等
尝试 grep 并稍后使用 sed 解析:
grep -o '<div class="name">.*</div>' | sed -e 's?<div class="name">?|?g'
但是,当我尝试用 sed -e 's?<\/div><div class="phone">?|?g' 替换时 - 没有结果
并且为每个班级做同样的事情。我无法删除所有 html 标签 (sed 's/<[^>]\+>//g'),并且只需要对带有此类的 div 执行此操作。
输出格式应该是这样的
|Mark|John|8434|
我需要用 grep/sed 来做
【问题讨论】:
-
我知道,它可以在 python 或 selenium 中使用 beatifullsoup 或数十种方式进行解析,但我被要求这样做)
-
斜线只是
grep的文字字符。你似乎在寻找grep -o '<div class="\(name\|surname\|phone\)">.*</div>'虽然我猜它也可能是refactored into yoursedscript。