【发布时间】:2011-02-07 21:28:07
【问题描述】:
是否可以在不查看源代码的情况下从WebBrowser 控件导航到的站点中抓取所有文本?
【问题讨论】:
是否可以在不查看源代码的情况下从WebBrowser 控件导航到的站点中抓取所有文本?
【问题讨论】:
您使用DocumentText 属性或WebBrowser 控件。
这个属性保存了您导航到的站点的 HTML。
更新:(跟随 cmets)
如果您想解析 HTML 并获取其中的文本部分,我建议您使用HTML Agility Pack。
【讨论】:
David Walker 的方法非常适用于不需要来自标题或网页非主要部分的任何信息。如果需要内部文本之外的东西,只有两种选择,一种是用“getElement”解析。 另一种是向网络浏览器发出命令(Document.ExecCommand)以全选并复制到剪贴板:
wb.Document.ExecCommand("SelectAll", false, null);
wb.Document.ExecCommand("Copy", false, null);
最后是string content=clipboard.getText();
请注意拼写和语法可能不正确,我是从记忆中回忆的
【讨论】:
string browserContents = webBrowser.Document.Body.InnerText;
【讨论】: