【发布时间】:2014-08-31 09:40:03
【问题描述】:
如何将我从 HTML 文件中解析的 &nbsp 字符替换为 " " ?
关于这个有很多问题和“接受”的答案,
How to remove with Jsoup?
How to remove " " from java string
Handling special entities like & nbsp; , & pound; in HtmlCleaner
但我仍然没有通过使用这些链接中给出的所有解决方案来解决这个问题,
if(tr.text().replace("\u00a0", "").isEmpty()){
System.out.println("testing---");
}
我在这里做错了什么? 这种场景可以使用jsoup吗?我在其中一个答案中读到了这一点。
更新 这是我试图从中获取数据的 HTML 部分。
<TR>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boBL noWrap> </TD>
<TD class=xl27boL noWrap align=right> </TD>
</TR>
【问题讨论】:
-
我已经更新了问题
-
你是说 noWrop 东西导致了问题吗?
-
不,实际上,JSoup 确实可以容忍无效的 HTML —— 这是它的一大优点。
标签: java web-scraping jsoup