【发布时间】:2016-05-17 17:49:45
【问题描述】:
我需要识别包含一些文本的div 元素的类。
例如我有这个 HTML 页面
<html>
...
<div class='x'>
<p>this is the text I have.</p>
<p>Another part of text.</p>
</div>
...
</html>
所以我知道文本this is the text I have. Another part of text. 并且我需要识别 div 类名。有没有办法使用 C# 来做到这一点?
【问题讨论】:
-
是asp.net还是mvc?
-
你关注的是 ASP.NET 还是 ASP.NET 和 MVC?
-
@Gaurav Singh Jantwal 这只是一个 html 代码。我有许多来自不同网站的页面(具有不同的 html 结构),我需要为每个页面识别文章文本的“html 边界”。完成后,我将使用 HTML AGILITY PACK 从每个页面获取 innerText。
-
您可以将 HTML 页面读取为 XML 文档,然后使用 HTML 敏捷性您可以使用
selector或迭代等进行检查。
标签: c# html parsing html-agility-pack