【发布时间】:2014-02-01 12:58:17
【问题描述】:
我正在使用 Jsoup 在 Android 中解析维基百科。我想在这段 HTML 中获取“Sección Sur-Norte”:
<div class="thumb tright">
<div class="thumbinner" style="width:302px;">
<a href="//commons.wikimedia.org/wiki/File:Cheops-Pyramide.png" class="image">
<img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/6/60/Cheops-Pyramide.png/300px-Cheops-Pyramide.png" width="300" height="227" class="thumbimage" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/6/60/Cheops-Pyramide.png/450px-Cheops-Pyramide.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/6/60/Cheops-Pyramide.png/600px-Cheops-Pyramide.png 2x">
</a>
<div class="thumbcaption">
<div class="magnify">
<a href="/wiki/Archivo:Cheops-Pyramide.png" class="internal" title="Aumentar">
<img src="//bits.wikimedia.org/static-1.23wmf10/skins/common/images/magnify-clip.png" width="15" height="11" alt="">
</a>
</div>
Sección Sur-Norte. <--> Text I want to scrape
</div>
</div>
</div>
我被选为一个元素。我正在尝试通过以下方式获得“Sección Sur-Norte”:
Elements thumbCaption = thumbinner.select("div[class*=thumbcaption]");
Element myThumbCaption = thumbCaption.first();
Log.d("", "Thumbcaptions number of elements: " + thumbCaption.size());
Log.d("", "MyThumbcaption: text: " + aver.text());
但在日志中,我发现 thumbcaption 有 8 个元素(之后文档中的所有“thumbcaption”元素)。而且我得到的结果比 MyThumbcaption 文本是之后文档中的所有文本。
我怎样才能只刮“Sección Sur-Norte”?
更多信息:
我正在通过以下方式从 img 名称中获取 thumbinner 元素:
Elements imgs = doc.select("img[src*=" + name + "]");
Element img = imgs.first(); // Image selected
Element parentCaption = img.parent();
Element thumbinner = parentCaption.parent();
【问题讨论】:
标签: android json web-scraping jsoup wikipedia-api