【发布时间】:2016-03-31 15:31:25
【问题描述】:
我正在阅读使用pdfbox 的pdf 文件,显然,至少在基于Windows 的框架上,对于换行符,它使用
&#10 这样的unicode。
我的问题是如何防止这个换行符连接到下面代码中的字符串?
tokenizer =new StringTokenizer(Text,"\\.");
while(tokenizer.hasMoreTokens())
{
String x= tokenizer.nextToken();
flag=0;
for(final String s :x.split(" ")) {
if(flag==1)
break;
if(Keyword.toLowerCase().equals(s.toLowerCase()) && !"".equals(s)) {
sum+=x+"."; //here need first to check for " 
"
// before concatenating the String "x" to String "sum"
flag=1;
}
}
}
【问题讨论】:
-
!"".equals(s) -> s.isEmpty() ?!使用 StringBuilder 代替 sum+=x+".";
-
尝试
x.trim()删除开头和结尾的空格,然后检查x.isEmpty() -
@fafl 对
.trim()没有用处。 -
@Tokazio 我应该如何使用它?你能举个简短的例子吗?
-
可能是一个简单的替换("\r\n",""); ?
标签: java html string line-breaks pdfbox