【发布时间】:2011-04-23 03:39:49
【问题描述】:
我希望解析一些旧的 html,这些 html 有很多现在可以用 CSS 完成的无关标签 - <b>、<font> 等。我正在使用 Hpricot 来解析它,但我想得到最里面的“inner_html”——如何用 Hpricot 做到这一点?例如,假设我使用 Hpricot 获取所有 <table> 元素,我通过这些元素循环获取行和单元格,但我想获取单元格内的数据,但它们不能有额外的标签或像 <b><font ...>1,000</font></b> 这样的东西- 把“1000”取出来有什么诀窍吗?
谢谢,
本
【问题讨论】:
标签: html ruby parsing html-parsing hpricot