【发布时间】:2013-11-15 10:53:21
【问题描述】:
我正在尝试使用 JSoup 限制下载页面/链接的大小,给出如下内容(Scala 代码):
val document = Jsoup.connect(theURL).get();
我只想获取给定页面的前几 KB,并且不再尝试下载。如果页面非常大(或者theURL 是一个不是 html 的链接,并且是一个大文件),我不想花时间下载其余的。
我的用例是 IRC 机器人的页面标题搜索器。
额外问题:
Jsoup.connect(theURL).timeout(3000).get(); 在大文件上没有超时有什么原因吗?如果有人粘贴诸如永无止境的音频流或大型 ISO 之类的东西(这可以通过在不同线程中获取 URL 标题(或使用 Scala 演员并在那里超时)来解决),它最终会导致机器人退出,但是当我认为 timeout() 应该完成相同的最终结果时,对于一个非常简单的机器人来说似乎有点过分了)。
【问题讨论】:
标签: jsoup