【问题标题】:Jsoup does not read/load entire pageJsoup 不读取/加载整个页面
【发布时间】:2019-11-06 06:21:27
【问题描述】:

http://www.missouribotanicalgarden.org/PlantFinder/PlantFinderListResults.aspx?letter=A

jsoup 读取页面后,似乎稍后加载了一些内容? doc.html() 中没有“Abelia chinensis”或列表中没有任何其他元素

Document doc = Jsoup.connect("http://www.missouribotanicalgarden.org/PlantFinder/PlantFinderListResults.aspx?letter=A")
        .header("Accept-Encoding", "gzip, deflate")
        .userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
        .ignoreContentType(true)               
        .ignoreHttpErrors(true)
        .followRedirects(true)
        .timeout(600000)
        .maxBodySize(0)/*unlimited body size*/
        .get();  

    responseBody =  doc.html();

【问题讨论】:

标签: jsoup


【解决方案1】:

Abelia chinensis 在那里,但您可能错过了它,因为 HTML 是这样构建的:

<i>Abelia</i> <i>chinensis</i>

使用名称选择每个链接:

Elements links = doc.select("a[id^=MainContentPlaceHolder_SearchResultsList_TaxonName_]");

这意味着选择每个&lt;a&gt;,id以MainContentPlaceHolder_SearchResultsList_TaxonName_开头。它恰好选择了 821 个结果。

【讨论】:

  • 你能详细说说你想做什么吗?
  • 由于某种原因我没有得到内容,firefox 页面源/jsoup doc.html() 的 coparison
    您的搜索返回了 821 个结果。 ////
    jsoup 1.12.1 java 8
  • 对不起大家。我的代码中的目标链接混乱。一切正常。但是服务器还是返回了一些东西,因此在圈子里运行(-:
  • 不错。如果你喜欢这个答案记得mark it as accepted
猜你喜欢
相关资源
最近更新 更多
热门标签