【发布时间】:2017-12-02 21:05:45
【问题描述】:
我有一个文本文件,即使在删除所有 html 标记后仍然包含一些 html 代码的撇号和其他标点符号示例:
It's // It's
我的问题是如何全部更改?
我在linux下使用bash脚本来获取html文件
【问题讨论】:
标签: html linux bash gnome-terminal
我有一个文本文件,即使在删除所有 html 标记后仍然包含一些 html 代码的撇号和其他标点符号示例:
It's // It's
我的问题是如何全部更改?
我在linux下使用bash脚本来获取html文件
【问题讨论】:
标签: html linux bash gnome-terminal
或者,如果您有 lynx,请将其用作:
lynx -stdin -dump < file.html
上面也将删除 HTML 标记,例如来自 file.html
<i>It's</i>
<<b>&</b>>
打印
It's <&>
【讨论】:
$ echo 'It's' | python -c 'import xmllib,sys; print(xmllib.XMLParser().translate_references(sys.stdin.read()))'
It's
$ echo 'It's' | perl -MHTML::Entities -pe 'decode_entities($_);'
It's
【讨论】: