使用 Hpricot 和 Ruby 解析 HTML - 获取最里面的 html？答案

【问题标题】：Parsing HTML with Hpricot & Ruby - getting the innermost html?使用 Hpricot 和 Ruby 解析 HTML - 获取最里面的 html？
【发布时间】：2011-04-23 03:39:49
【问题描述】：

我希望解析一些旧的 html，这些 html 有很多现在可以用 CSS 完成的无关标签 - 、 等。我正在使用 Hpricot 来解析它，但我想得到最里面的“inner_html”——如何用 Hpricot 做到这一点？例如，假设我使用 Hpricot 获取所有 <table> 元素，我通过这些元素循环获取行和单元格，但我想获取单元格内的数据，但它们不能有额外的标签或像 1,000 这样的东西- 把“1000”取出来有什么诀窍吗？

谢谢，
本

【问题讨论】：

标签： html ruby parsing html-parsing hpricot

【解决方案1】：

我不确定这是否完全符合您的要求，但您可能需要查看 inner_text 方法。它将返回与 inner_html 相同的内容，除了将删除所有 HTML 元素。

【讨论】：