【发布时间】:2018-06-13 02:56:33
【问题描述】:
我正在构建一个用于搜索的网络爬虫。因为我只需要文章的标题来索引。我使用 Jsoup 连接 URL 目的地。
Jsoup.connect(url).timeout(20000).execute();
但我遇到了一个问题连接超时。我想知道是否由于在该 URL 上加载了许多图像而发生了 超时。
如何在不使用 Jsoup 加载图片的情况下获取网页?
【问题讨论】:
-
JSoup 是一个 HTML 爬虫,所以它不会下载图片。它得到的只是
<img />标签
标签: java web-crawler jsoup connection-timeout