【问题标题】:Need a way to extract headings content without using regEx需要一种不使用正则表达式来提取标题内容的方法
【发布时间】:2020-06-07 06:41:22
【问题描述】:

我已经看到 html 敏捷包可以派上用场,但我不明白它是如何工作的。这就是我现在获取代码的方式,目前它成功提取了标题内容,但也获取了更多不需要的内容。

    driver.Manage().Window.Maximize();

    driver.Navigate().GoToUrl(response);

    String sourcePage = driver.PageSource;
    Regex regexHeadings = new Regex("(?<=\\>)(?!\\<)(.*)(?=\\<)(?<!\\>)");
    foreach (Match match in regexHeadings.Matches(sourcePage))
    {
        h1Keywords.Add(match.Value);
        colorOutput(ConsoleColor.White, match.Value);
    }

【问题讨论】:

    标签: c# selenium html-agility-pack


    【解决方案1】:

    我建议您在 XPath / CSS 选择器的帮助下使用 HtmlAgility Pack。 请参阅此备忘单以获取帮助:https://devhints.io/xpath

    快速示例:

    var url = "https://devhints.io/xpath";
    var web = new HtmlWeb();
    var doc = web.Load(url);
    
    foreach (var heading in doc.DocumentNode.SelectNodes("//h1"))
    {
        Console.WriteLine(heading.InnerText);
    }
    

    【讨论】:

      猜你喜欢
      • 2021-12-20
      • 2015-12-10
      • 1970-01-01
      • 1970-01-01
      • 2011-08-14
      • 1970-01-01
      • 2023-04-05
      • 2021-10-19
      • 1970-01-01
      相关资源
      最近更新 更多