【发布时间】:2014-03-06 13:05:40
【问题描述】:
问题:如何通过Java获取HTML格式的表格内容?
要求:必须是在线页面,而不是本地文件。
我想提取第一个主题的网址:
https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3
我尝试使用以下代码在第 3 页获取第一个主题
String url_page3 = "https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3";
String key = "td.jive-table-cell-subject > a[href]";
Document doc = Jsoup.connect(url_page3).maxBodySize(0).timeout(0).get();
Element e = doc.select(key).first();
System.out.println(e.attr("abs:href");
它返回第 1 页上的第一个主题(即使我将连接的 url 更改为第 4 页,第 5 页,...)
但是为什么会这样呢?有没有其他方法可以尝试?
【问题讨论】:
标签: java html web-scraping html-table jsoup