【问题标题】:Crawl webpage with loading image using Jsoup?使用 Jsoup 抓取带有加载图像的网页?
【发布时间】:2018-06-13 02:56:33
【问题描述】:

我正在构建一个用于搜索的网络爬虫。因为我只需要文章的标题来索引。我使用 Jsoup 连接 URL 目的地。

Jsoup.connect(url).timeout(20000).execute();

但我遇到了一个问题连接超时。我想知道是否由于在该 URL 上加载了许多图像而发生了 超时

如何在不使用 Jsoup 加载图片的情况下获取网页?

【问题讨论】:

  • JSoup 是一个 HTML 爬虫,所以它不会下载图片。它得到的只是<img />标签

标签: java web-crawler jsoup connection-timeout


【解决方案1】:

只是为了确认页面加载时间不会太长,请尝试在浏览器中打开该 URL 并观察加载页面所用的时间。

Jsoup 可以选择通过在超时时提供(0) 来无限等待,例如

Jsoup.connect(url).timeout(0).execute();

但是对于超时,下面的link 有更好的解释。

【讨论】:

    猜你喜欢
    • 2019-04-14
    • 1970-01-01
    • 2013-01-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-20
    • 2015-07-21
    相关资源
    最近更新 更多