【发布时间】:2011-08-16 09:37:49
【问题描述】:
我需要提取 html 的 <body> 中存在的所有文本。示例 Html 输入:-
<html>
<title>title</title>
<body>
<h1> This is a big title.</h1>
How are doing you?
<h3> I am fine </h3>
<img src="abc.jpg"/>
</body>
</html>
输出应该是:-
This is a big title. How are doing you? I am fine
我只想为此目的使用 HtmlAgility。请不要使用正则表达式。
我知道如何加载 HtmlDocument,然后使用像 '//body' 这样的 xquery 我们可以获得正文内容。但是如何剥离我在输出中显示的 html?
提前致谢:)
【问题讨论】:
-
请参阅this question 以获取一些 HTML Agility Pack 链接。我猜你必须在
HtmlNode上调用类似InnerText的属性。
标签: c# html-agility-pack