【发布时间】:2016-06-15 03:08:03
【问题描述】:
我需要从一个非常糟糕的 Html 中提取文本。
我正在尝试使用 vb.net 和 HtmlAgilityPack 来做到这一点
我需要解析的标签有 InnerText = InnerHtml 和两者:
Name:<!--b>=</b--> Albert E<!--span-->instein s<!--i>Y</i-->ection: 3 room: -
在调试时,我可以使用“Html 查看器”阅读它:它显示:
Name: Albert Einstein section: 3 room: -
我怎样才能把它变成一个字符串变量?
编辑:
我使用这段代码来获取节点:
Dim ElePs As HtmlNodeCollection = _
mWPage.DocumentNode.SelectNodes("//div[@id='div_main']//p")
For Each EleP As HtmlNode In ElePs
'Here I need to get EleP.InnerText "normalized"
Next
【问题讨论】:
-
你可以试试这个吗? stackoverflow.com/questions/3442394/… 我不知道这是否适用于糟糕的 html...尝试
-
你需要发布更多我认为的 html - 从表面上看并没有那么糟糕
-
@Mr.Developer 你能再解释一下吗?我理解逻辑,但我需要更多的帮助来尝试它。提前致谢
-
我在 stavkover 上尝试了另一个问题...尝试解决方案..如果也可以在错误的 html 上工作
-
这会删除所有标签...还有坏标签...试试stackoverflow.com/questions/8692423/…
标签: html vb.net html-agility-pack innerhtml innertext