【问题标题】:How can I parse this in C# [duplicate]如何在 C# 中解析它 [重复]
【发布时间】:2017-07-22 13:33:48
【问题描述】:

我是使用 C# 抓取网站的新手。我了解如何找到hrefs 以及如何处理非常简单的表格。

现在我想解析这个 .. 并选择第一个文本,即“办公室经理”和 href

<tr>
  <td>Office Manager</td>
  <td>Office & Admin</td>
  <td>Cambridge</td>
  <td class="btn-wrapper desktop-btn"><a href="http://www.itoworld.com/office-manager/" class="std-btn">Find out more</a></td>
</tr>
<tr class="mobile-btn">
  <td colspan="3" class="btn-wrapper"><a href="http://www.itoworld.com/office-manager/" class="std-btn">Find out more</a></td>
</tr>

人们还可以推荐一个网站,在那里我可以学习如何进入节点、tds 和 trs 的世界吗?

【问题讨论】:

  • 不是很清楚,但答案可能是 HtmlAgilityPack

标签: c# web-scraping


【解决方案1】:

您可以使用 CsQuery 库(在 nuget 中提供)使用 jQuery 语法解析 HTML:

var page = new CQ(html);
var firstManagerHref = page.Find("a.std-btn:first()").Attr("href");

【讨论】:

    【解决方案2】:

    如果您想从 HTML 中检索信息,我建议您使用这样的库:

    http://html-agility-pack.net/

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-12-01
      • 2013-02-15
      • 2021-06-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-07
      相关资源
      最近更新 更多