【发布时间】:2014-06-08 10:42:23
【问题描述】:
我即将解析这个网址:http://online.wsj.com/public/page/news-wall-street-heard.html?dsk=y
Document jDoc = Jsoup.connect(url1).get();
System.out.println(jDoc1.text());
但第二行(上图)的输出是 textarea 内的所有 TAGS + 其他标签的文本。输出如下:
..
..
<ul class="">
<li><a data-time="1dy" data-frequency="1mi" class="mdm_time">1 Day</a></li>
<li><a data-time="5dy" data-frequency="15mi" class="mdm_time">5 Days</a></li>
..
..
所有的 html 都被打印出来(里面的内容)和其他标签的文本。我要么想从 Doc 中删除此标签,要么想将其作为元素获取,以便我可以手动将其删除。
希望,我能够清楚地解释一切。请帮我解决这个问题。
编辑:
根据建议,我这样做了:
System.out.println(jDoc1.select("textarea"));
输出是:
textarea id="wsj_autocomplete_template" style="display:none">
<div>
<div class="acHeadline hidden" >
</div>
<div class="dropdownContainerClass">
<div class="suggestionblock hidden" templateType="C1">
....
...
..
当然它正在选择文本区域,但无法解析内部元素。可能是由于 < 而不是
【问题讨论】:
标签: java html-parsing jsoup