【发布时间】:2018-02-07 04:34:33
【问题描述】:
我正在使用 jsoup 库,今天我遇到了问题。 我必须抓取 DuckDuckGo 并获取每个页面的查询结果的所有标题,但使用
Document doc = Jsoup.connect("https://duckduckgo.com/html/?q=" + query).get();
我只得到关于第一页的结果。如何继续阅读下一页?
【问题讨论】:
-
你能提供你的java解决方案吗?
-
我做了一些网页抓取,你有 2 个选择:1) 看看网站如何构建他们的 url,这样你就可以模仿下一页的结果,2) 尝试搜索链接“next page”,获取链接并使用jsoup访问以获得下一批结果,在“下一页”链接被禁用或不存在后重复。