【问题标题】:jTidy returns nothing after tidying HTMLjTidy 整理 HTML 后不返回任何内容
【发布时间】:2012-02-11 17:21:36
【问题描述】:

我在使用 jTidy(在 Android 上)时遇到了一个非常烦人的问题。我发现 jTidy 适用于我测试过的每个 HTML 文档,除了以下内容:

    <!DOCTYPE html>
      <html lang="en">
       <head>
        <meta charset="utf-8" />

         <!-- Always force latest IE rendering engine & Chrome Frame 
              Remove this if you use the .htaccess -->
         <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />

         <title>templates</title>
         <meta name="description" content="" />
         <meta name="author" content="" />

         <meta name="viewport" content="width=device-width; initial-scale=1.0" />

         <!-- Replace favicon.ico & apple-touch-icon.png in the root of your domain and delete these references -->
      <link rel="shortcut icon" href="/favicon.ico" />
      <link rel="apple-touch-icon" href="/apple-touch-icon.png" />
   </head>

 <body>
   <div>
     <header>
       <h1>Page Heading</h1>
     </header>
     <nav>
       <p><a href="/">Home</a></p>
       <p><a href="/contact">Contact</a></p>
     </nav>

     <div>

     </div>

     <footer>
      <p>&copy; Copyright</p>
     </footer>
   </div>
 </body>
 </html>

但是在整理之后,jTidy 什么都不返回(比如,如果包含整理后的 HTML 的字符串被称为 result,result.equals("") == true)

不过,我注意到一些非常有趣的事情:如果我删除 HTML 正文部分的所有内容,jTidy 就可以完美运行。

jTidy 有什么不喜欢的吗?

这是我正在使用的 Java 代码:

 public String tidy(String sourceHTML) {
   StringReader reader = new StringReader(sourceHTML);

   ByteArrayOutputStream baos = new ByteArrayOutputStream();
   Tidy tidy = new Tidy();
   tidy.setMakeClean(true);
   tidy.setQuiet(false);
   tidy.setIndentContent(true);
   tidy.setSmartIndent(true);

   tidy.parse(reader, baos);

   try {
     return baos.toString(mEncoding);
   } catch (UnsupportedEncodingException e) {
     return null;
   }
 }

我的 Java 有什么问题吗?这是 jTidy 的错误吗?有什么办法可以让 jTidy 不这样做吗? (我无法更改 HTML)。如果这绝对无法解决,还有其他好的 HTML Tidiers 吗?非常感谢!

【问题讨论】:

  • 我找到的唯一解决方案是使用 HTMLCleaner (htmlcleaner.sourceforge.net),这非常好,如果以上对您有问题,我会推荐它。
  • 我也有同样的问题。该死的,我今天过得很辛苦。首先尝试了 nu.validator,然后是 jcabi-w3c,现在 jtidy 打印到 stderr,我无法捕获输出......我讨厌使用 System.setErr

标签: java android html tidy jtidy


【解决方案1】:

试试这个:

tidy.setForceOutput(true);

可能存在解析错误。

【讨论】:

    【解决方案2】:

    查看Jsoup,这是我对任何类型的 Java Html 处理的推荐(我使用过 HtmlCleaner,但后来切换到 jsoup)

    用 Jsoup 清理 Html:

    final String yourHtml = ...
    
    String output = Jsoup.clean(yourHtml, Whitelist.relaxed());
    

    就是这样!

    或者(如果你想改变/删除/解析/...)一些东西:

    Document doc = Jsoup.parse(<file/string/website>, null);
    
    String output = doc.toString();
    

    【讨论】:

      猜你喜欢
      • 2016-03-30
      • 2015-07-27
      • 2012-07-15
      • 2020-04-27
      • 2019-04-06
      • 2012-02-15
      • 2020-09-07
      • 2021-11-22
      • 2015-11-06
      相关资源
      最近更新 更多