【问题标题】:Retrieving frame source code with a Java HTML Parser?使用 Java HTML 解析器检索框架源代码?
【发布时间】:2012-04-12 09:15:22
【问题描述】:

我查看了一些 Java HtmlParser(Jericho、HtmlCLeaner、...),但找不到在检索页面时将 html 框架标记替换为实际源代码的功能。

有没有人知道有什么解析器可以做到这一点?

答案:

像 Phani 表示我需要一个 Html Scraper(不是解析器,更清洁)

HtmlUnit 似乎可以解决问题:http://htmlunit.sourceforge.net/frame-howto.html

【问题讨论】:

    标签: java html-parsing


    【解决方案1】:

    从您的用例来看,您需要刮板而不是清洁器。

    清洁剂 - 通常很脏、形状不正确且不适合进一步处理。对于此类文档的任何严重消费,首先需要清理混乱,并为标签、属性和普通文本排序。

    Scraper - 以编程方式阅读页面并编辑 html 页面。

    http://sourceforge.net/projects/htmlscraper/

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-04-30
    • 1970-01-01
    • 2011-07-26
    • 1970-01-01
    • 2012-01-30
    • 1970-01-01
    • 1970-01-01
    • 2015-01-22
    相关资源
    最近更新 更多