【发布时间】:2018-12-23 09:40:12
【问题描述】:
我确保使用浏览器的用户代理,它仍然提供不同的 HTML。我还尝试使用 Jsoup.parse(Url, int) 而不是 Jsoup.connect(String)。两次尝试:
Document doc = Jsoup.connect("https://www.bulq.com/lots/search/?category=Consumer%20Electronics&condition%5B%5D=Brand%20New")
.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6)AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.1.1Safari/605.1.15")
.get();
和
URL mainUrl = new URL("https://www.bulq.com/lots/search/category=Consumer%20Electronics&condition%5B%5D=Brand%20New");
Document doc = Jsoup.parse(mainUrl, 6000);
我在“元素”选项卡中使用 Safari 的“显示页面源代码”。我尝试在下面复制一些 HTML,但格式不起作用:(所以这是一个小例子。
示例:Jsoup HTML 中的 div 类之一是:
div class="row ng-cloak" ui-view
而 Safari HTML 是:
div class="row ng-scope" ui-view
【问题讨论】:
-
你能告诉我们有什么区别吗?可能是“显示页面源代码”没有显示所有内容。
-
文件相似但肯定不一样,我会尝试用例子编辑
-
JSoup 检索到的文档是否以
<!DOCTYPE html>开头,并且显示页面源没有显示? -
elements -> show page source是否显示原始来源或通过javascript生成元素后的来源(“生成的来源”)?这些显然是不同的。
-
不,它们都以 !DOCTYPE html 开头>
标签: java html web-scraping jsoup