【问题标题】:parsing links and tables using VB.net HTML AgilityPack使用 VB.net HTML Agility Pack 解析链接和表格
【发布时间】:2011-04-18 03:32:25
【问题描述】:

我正在尝试进行一些屏幕抓取,并发现了 HTML AgilityPack,但在弄清楚如何将它与 VB.net 一起使用时遇到了一些麻烦。

如果我知道 HREF 中包含的文本,我要做的第一件事是找到 HREF 标记的 URL 字符串。

我要做的第二件事是解析一个 HTML 表,遍历每一行,然后提取数据,以便我可以将其保存到数据库中(经过一些基本分析)。

【问题讨论】:

    标签: .net vb.net html-agility-pack


    【解决方案1】:

    这是一个很好的起始链接:How to use HTML Agility pack

    另请参阅:HtmlAgilityPack example for changing links doesn't work. How do I accomplish this?

    还有这个:Finding all the A HREF Urls in an HTML document (even in malformed HTML)

    要查找特定的 HREF,xpath 语法应为“//a[@href='your url']”,意思是:“获取任何 HREF 属性等于 'your url' 的 A 标记。

    编辑:

    如果您只知道文本,则要查找 HREF,例如,如果您有 html 文本“<a href="homepage.html">Cars</a>”并查找 homepage.html,那么您将这样做。

            string s = @"<a href=""homepage.html"">Cars</a>";
    
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(s);
    
            HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
            Console.WriteLine("href=" + node.GetAttributeValue("href", null));
    

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-06-04
    • 2014-07-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-02-17
    • 2014-08-31
    • 1970-01-01
    相关资源
    最近更新 更多