【发布时间】:2013-08-04 09:38:30
【问题描述】:
今天我尝试将lib用作jericho-html-3.2到extract text from simple html...并且遇到了一个奇怪的文本假长度问题,如下所示:
如果我有这个 html
Hello World :)<br><br>Hello World :(<br><br>Hello World ;)<br>
...my RichTextArea getText().length() 返回的 42 实际上是正确的长度,但是当我尝试使用类似 a 的代码从该 html 中提取文本时
Source source = new Source(html);
String text = source.getTextExtractor().toString();
...text.length() 返回 44
所以我不明白为什么长度为 42 的文本会变成长度为 44 的文本以及如何修复它?
谢谢
【问题讨论】:
标签: java gwt html-parsing jericho-html-parser