【发布时间】:2018-02-22 06:32:49
【问题描述】:
我正在尝试使用 Jsoup 从官方 Facebook 页面抓取视频链接。当我与 Jsoup 连接并尝试在连接后显示包含 HTML 代码的文档内容时,它会显示一部分 HTML 代码而不是完整代码。我什至使用了用户代理,但我仍然收到部分代码源代码源。 为什么当我从浏览器中正常单击以显示代码源时,它会显示带有 div、cmets 等的完整代码源,但使用 Jsoup 却不是?请帮忙
import org.jsoup.*;
import org.jsoup.nodes.Document;
import java.io.IOException;
public class xxxx {
public static void main(String args[]){
print("running...");
Document d2;
try { d2=Jsoup.connect("https://www.facebook.com/pg/EttounsiyaTV/videos/").userAgent("Mozilla/5.0 (X11; Ubuntu; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.167")
.maxBodySize(0)
.timeout(600000)
.get();
System.out.println(d2);
} catch (IOException e) {
e.printStackTrace();
}
print("done");
}
public static void print(String string) {
System.out.println(string);
}
}
【问题讨论】:
-
fb页面需要登录用户吗?您如何使用 jsoup 进行日志记录?
-
你可能需要 selenium webdriver
标签: parsing web-scraping jsoup