【问题标题】:Java library for HTML analysis用于 HTML 分析的 Java 库
【发布时间】:2011-01-09 20:08:54
【问题描述】:

(我见过类似的问题,但我认为它们都不能满足我的特定需求,因此......)

我想知道是否有用于分析真实世界(阅读:不完整、格式错误)HTML 的 Java 库。通过分析,我的意思是:

  • 找出 HTML 块中最突出的颜色
  • 将该颜色更改为其他颜色(因此,还必须支持修改 HTML)
  • 删除不需要的标签
  • 修复 HTML 以生成格式良好的 HTML sn-p

最后两个部分由 Jericho 和 jTidy 等库完成。在这些之上的“插件”会很棒。

提前致谢!

【问题讨论】:

  • 好吧,经过一些分析,我在上面第一个项目符号中所要求的似乎并不容易获得:(必须为此考虑一些巧妙的算法......

标签: java html html-parsing


【解决方案1】:

您可能想查看 TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

【讨论】:

  • 没有一个库提供太多语义分析。但是投票给了这个因为Tagsoup确实令人印象深刻
【解决方案2】:

我会先把它整理成有效的 XML,然后使用 XSLT 做一个有条件的深拷贝,在那里我会做最突出的颜色/修剪/你需要的任何处理。

【讨论】:

    【解决方案3】:

    看看JTidyHTML Tidy 的 Java 端口。根据您选择的选项,它会修复格式不正确的 HTML 并以其他方式清理它。

    你需要别的东西来改变颜色。

    【讨论】:

    • 谢谢。我知道 jTidy。我正在寻找可以对 HTML 片段进行更多语义分析的东西
    【解决方案4】:

    也许你会在this list 中找到一些东西(试试 TagSoup、NekoHTML、VietSpider HTMLParser)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-09-05
      • 2011-07-08
      • 2011-03-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多