【发布时间】:2014-11-28 04:57:10
【问题描述】:
我尝试使用 Jsoup 解析给定的 html 内容。在 Jsoup.parse() 之后,html 输出将 html、head 和 body 标记附加到输入。我只想忽略这些。
示例输入:
<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
Java 代码:
import java.io.File;
import java.io.IOException;
import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class HTMLParse {
public static void main(String args[]) throws IOException {
try{
File input = new File("/ab.html");
String html = FileUtils.readFileToString(input, null);
Document doc = Jsoup.parseBodyFragment(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.html());
}
catch(Exception e){
e.printStackTrace();
}
}
}
实际输出:
<html><head></head><body><p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
</body></html>
预期输出:
<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>
请帮忙。
【问题讨论】:
-
这应该对您有所帮助。 stackoverflow.com/questions/17492396/…
-
@Jitendra 我想要这样的财产。 nekohtml.sourceforge.net/faq.html#fragments