【发布时间】:2016-01-18 10:28:02
【问题描述】:
说,
我有一个由soffice --headless 命令生成的来自 Word (DOCX) 的 html 文件。然后我执行了tidy 命令,以便通过从 Word 中删除不必要的 html/css 化妆品来使 html 看起来干净。
我看到了类似的东西
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
<p lang="en-US" class="western c31"></p>
... repeated 15 times
我做了这些命令:
sed -e 's/<(.*?)><\/(.?)>//g' > ./hasil.html
sed -e 's/<[a-z] lang="(.*) class="western (.*?)><\/[a-z]>//g' > ./hasil.html
从 HTML 文件中删除 <p lang="en-US" class="western c31"></p> 无法正常工作。
任何帮助将不胜感激。谢谢。
【问题讨论】:
-
@glenjackman 谢谢你提醒我。差点忘记了。真丢脸。
-
不难过吗? 11 Questions with the phrase "remove html tags" in title and sed in content。没关系...从链接的问题中,我猜您收到了一些错误消息?如果是这样,请将其添加到您的问题中。
-
@try-catch-finally 我从来没有这样做过,之前你在 stackoverflow 上给我“高级搜索”。谢谢。下次我会在发布相同问题之前更好地搜索其他问题。
标签: regex ubuntu sed substitution