【发布时间】:2019-07-02 17:32:49
【问题描述】:
我需要将 HTML 解码为纯文本。我知道有很多这样的问题,但我注意到这些解决方案存在一个问题,不知道如何解决。
例如,我们有这段 HTML:
<h1><strong>Some text</strong></h1><p><br></p><p>Some more text</p>
尝试过正则表达式解决方案,HttpUtility.HtmlDecode 方法。他们都给出了这个输出:Some textSome more text。单词在应该分开的地方连接起来。有没有办法在不合并单词的情况下解码字符串?
【问题讨论】:
-
你可以取一个子字符串来取“>”之后的所有字符串和“
-
你想用什么来分隔这两个短语?什么决定一个短语何时结束,下一个短语何时开始?
-
html-agility-pack.net 将允许您非常成功地解析 HTML 并访问 HTML 的所有部分(包括标签和内部文本)。
-
单词之间的空格对我有用。只是想确保单词不会混淆。
-
RegEx 不是一个好的答案。当然,您可能会发现它可以在 99% 的时间内工作,但 HTML 不是 XML。对于正则表达式来说太不规则了。