【发布时间】:2012-07-18 10:35:09
【问题描述】:
我正在尝试使用tidy-ext gem 整理一些检索到的 HTML。但是,当 HTML 完全损坏时它会失败,所以我首先尝试使用 Nokogiri 修复 HTML:
repaired_html = Nokogiri::HTML.parse(a.raw_html).to_html
这似乎做得很好,但最近我遇到了一个示例,其中人们将 FBML 标记插入到 HTML 文档中,例如 <fb:like>,尽管无效,但 Nokogiri 以某种方式保留了该标记。 Tidy 然后说Error: <fb:like> is not recognized! 这是可以理解的。
我想知道是否还有其他选项,例如 strict 或强制 Nokogiri 仅包含有效的 HTML 标记而忽略其他所有内容的选项?
【问题讨论】:
标签: html ruby html-parsing nokogiri