【发布时间】:2015-01-14 06:03:35
【问题描述】:
我已经使用 Crawljax 抓取动态网页。我可以获取当前的 id、status 和 dom。但我无法获取网站内容.. 有人帮帮我吗?
CrawljaxConfigurationBuilder builder =
CrawljaxConfiguration.builderFor("http://demo.crawljax.com/");
builder.addPlugin(new OnNewStatePlugin() {
@Override
public String toString() {
return "Our example plugin";
}
@Override
public void onNewState(CrawlerContext cc, StateVertex sv) {
LOG.info("Found a new dom! Here it is:\n{}", cc.getBrowser().getStrippedDom());
String name = cc.getCurrentState().getName();
String url = cc.getBrowser().getCurrentUrl();
System.out.println(cc.getCurrentState().getDom());
System.out.println("New State: " + name + "; url: " + url);
}
});
CrawljaxRunner crawljax = new CrawljaxRunner(builder.build());
crawljax.call();
如何获取动态/java脚本网页内容..
【问题讨论】:
-
如果你能得到DOM,你就能得到内容,对吧?是一样的。
-
没有。我无法获取内容。它显示空值。
标签: java web-crawler