【问题标题】:what is the best html parser for java? [closed]java最好的html解析器是什么? [关闭]
【发布时间】:2011-03-08 11:03:21
【问题描述】:

假设我们必须使用 java,什么是最好的 html 解析器,它可以灵活地解析大量不同的 html 内容,并且不需要大量代码来进行复杂类型的解析?

【问题讨论】:

    标签: java html parsing


    【解决方案1】:

    最好的就是把工作做好。

    有一个名为tagsoup 的开源软件,还有jTidy

    【讨论】:

      【解决方案2】:

      我会为此推荐Jsoup。它有一个非常好的 API,支持jQuery like CSS selectors and non-verbose element iteration。以this answer 的副本为例,它会在此处打印您自己的问题和所有回答者的姓名:

      URL url = new URL("https://stackoverflow.com/questions/3121136");
      Document document = Jsoup.parse(url, 3000);
      
      String question = document.select("#question .post-text").text();
      System.out.println("Question: " + question);
      
      Elements answerers = document.select("#answers .user-details a");
      for (Element answerer : answerers) {
          System.out.println("Answerer: " + answerer.text());
      }
      

      另一种选择是 XPath,但 JSoup 对于已经很好地掌握 CSS 选择器的 Web 开发人员来说更有用。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2010-12-20
        • 2011-03-10
        • 2010-10-03
        • 2010-10-09
        • 2013-12-23
        • 1970-01-01
        • 2010-09-09
        • 1970-01-01
        相关资源
        最近更新 更多