【问题标题】:Parsing or Extracting the content of html table解析或提取html表格的内容
【发布时间】:2010-03-09 10:27:52
【问题描述】:

我可以通过只给出列名来解析 html 表吗?

就像只应该从与我给出的那些列名匹配的表中提取那些数据一样。

例如,我有列名表,如序列号、姓名、地址、电话号码、总卢比……

我想只提取关于姓名、电话号码和总卢比的信息。那我该怎么做呢?

【问题讨论】:

  • winform中有html表格吗?
  • 你能举一个你尝试过的例子吗?
  • 您是否只能访问 HTML,而不是底层数据?至少你还没有问过如何用正则表达式来做……
  • @Graham Clark 是的,我怎样才能用正则表达式做到这一点?
  • 有关使用 html Agility pack 从 html 数据中提取数据的更多信息:stackoverflow.com/questions/2431652/html-agility-pack

标签: c# .net winforms parsing


【解决方案1】:

看看Html Agility Pack它提供了一个用于搜索html内容的LINQ api。

【讨论】:

    【解决方案2】:

    是的,你可以。您可以使用 XPATH 扫描您的 html 文档(用于屏幕抓取的谷歌)。 另一种技术是 UI 测试框架,如 Watin,它允许您使用 CSS 选择器等来查找 HTML 页面上的元素并获取内容。

    【讨论】:

    • @DarkwingDuck XPATH ?是.net内置的类还是其他任何东西?
    • @DarkWingDuck 这样一来,只有那些数据将被提取出来,我将为其输入列名?
    • 是的 XPath 是一个 XML 函数,它使用特定的语法在 XML 文档中查找元素。 .Net 完全支持 XPath。抱歉,我没听懂你的第二个问题。
    • 我想说的是,通过 XPATH 可能只会检索到我想要的列名的数据正如我在上面的主要问题中用示例解释的那样。
    【解决方案3】:

    您可以使用Data Extracting SDK,它具有 HtmlProcessor 类和 Tables 属性,该属性将 HTML 表作为 DataTable 对象处理。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-05-18
      • 2020-04-17
      • 2012-01-03
      • 1970-01-01
      • 1970-01-01
      • 2012-12-16
      • 2015-10-09
      • 2013-11-15
      相关资源
      最近更新 更多