【问题标题】:Parsing HTML with Hpricot & Ruby - getting the innermost html?使用 Hpricot 和 Ruby 解析 HTML - 获取最里面的 html?
【发布时间】:2011-04-23 03:39:49
【问题描述】:

我希望解析一些旧的 html,这些 html 有很多现在可以用 CSS 完成的无关标签 - <b><font> 等。我正在使用 Hpricot 来解析它,但我想得到最里面的“inner_html”——如何用 Hpricot 做到这一点?例如,假设我使用 Hpricot 获取所有 <table> 元素,我通过这些元素循环获取行和单元格,但我想获取单元格内的数据,但它们不能有额外的标签或像 <b><font ...>1,000</font></b> 这样的东西- 把“1000”取出来有什么诀窍吗?

谢谢,

【问题讨论】:

    标签: html ruby parsing html-parsing hpricot


    【解决方案1】:

    我不确定这是否完全符合您的要求,但您可能需要查看 inner_text 方法。它将返回与 inner_html 相同的内容,除了将删除所有 HTML 元素。

    【讨论】:

      猜你喜欢
      • 2012-09-05
      • 2011-10-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多