【发布时间】:2015-08-17 12:21:01
【问题描述】:
这可能是个愚蠢的问题,但我无法弄清楚。我正在尝试解析页面的 html 输出:http://meteo.uwb.edu.pl/
所以基本上我需要从表中提取值,从左侧(蓝色文本)作为键(标题),从右侧(棕色文本)作为值。另外,标题标签(“Aktualna pogoda/Weather conditions:”)
我的意图是从 html 输出中获取 html 表,然后解析它的行,但我无法弄清楚,因为 html 输出相当复杂。我从它开始:
doc = Jsoup.connect("http://meteo.uwb.edu.pl/").get();
Elements tables = doc.select("table");
for (Element row : table.select("tr"))
{
Elements tds = row.select("td:not([rowspan])");
System.out.println(tds.get(0).text() + "->" + tds.get(1).text());
}
但我的结果仍然是一团糟。你知道如何正确解析它吗?
【问题讨论】:
标签: java web-scraping html-table jsoup