【问题标题】:Find hyperlinked text and URL查找超链接文本和 URL
【发布时间】:2011-10-08 09:49:31
【问题描述】:

我有一个大文本,其中某个单词是超链接的,我想知道所有这些文本,它的超链接 url 假设我的文本如下:

LoremIpsum.Net 是一个小而简单的静态站点,无需使用generator 即可为您提供一个合适大小的通道。该网站还提供了文本的全大写版本,以及翻译,以及对这个著名内容的解释。

现在我想将那个超链接的单词和它的 url 存储在数组或哈希表中,任何人都可以建议我或提供一些示例代码来执行此操作。

提前致谢。

【问题讨论】:

  • 某个单词被超链接的文本 ?它是如何完成的,我认为文本没有链接,它的控件将其呈现为链接(就像您错过了 [3] 的链接,它现在不再是链接)
  • 你需要<a>-tags的html解析器。
  • 我想找到所有超链接文本,比如生成器和它的 url。
  • 我的问题是如何解析 的 html,我是 asp.net 和 C# 的新手

标签: c# asp.net


【解决方案1】:

试试HTMLAgilityPackhttp://www.codeplex.com/htmlagilitypack

类似

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
     HtmlAttribute att = link["href"];
   // these are your hrefs!
 }

如果你不使用正确的 HTML 解析器,你会失去理智。

【讨论】:

    【解决方案2】:

    请参阅此页面上的“使用正则表达式 [C#] 抓取的程序”:http://www.dotnetperls.com/scraping-html

    它基本上通过正则表达式和收集匹配来工作。

    【讨论】:

      猜你喜欢
      • 2015-01-14
      • 1970-01-01
      • 2021-10-19
      • 2012-02-04
      • 2011-09-19
      • 1970-01-01
      • 1970-01-01
      • 2021-11-03
      • 1970-01-01
      相关资源
      最近更新 更多