【发布时间】:2014-05-10 21:56:48
【问题描述】:
我正在循环加载大量 HTML,我试图只提取我需要的部分。
我只需要从下面的 html 中获取“THISISTHEBITIWANT”。
<li class="aClass">
<a href="example/THISISTHEBITIWANT">example</a>
</li>
<li class="aClass">
<a href="example/THISISTHEBITIWANT">example2</a>
</li>
每次我只想获取“THISISTHEBITIWANT”,链接中的文字都会改变。 我已经查看了字符串替换 - 但由于我不知道每次都会是什么 'example' 或 'example2',所以我现在只能删除直到 'example/'。
这是我的 Java 代码:
html = inputLine.replace("<li class=\"aClass\"><a href=\"/example/", "");
如果有人可以提供任何建议,将不胜感激!
【问题讨论】:
-
使用 HTML 解析器,例如 Jsoup
-
看看这个Java HTML解析器的比较-stackoverflow.com/questions/3152138/…