【发布时间】:2016-08-16 12:22:13
【问题描述】:
我想从网页下载一些图片,因为我正在编写一个爬虫。我为此页面测试了几个爬虫,但没有一个能达到我想要的效果。
第一步,我收集了770+相机型号的链接(parent_url),然后我想在每个链接中收集图像(child_urls)。但是,页面的组织方式是 child_urls 返回与 parent_url 相同的 html。
这是我收集相机链接的代码:
public List<String> html_compiler(String url, String exp, String atr){
List<String> outs = new ArrayList<String>();
try {
Document doc = Jsoup.connect(url).get();
Elements links = doc.select(exp);
for (Element link : links) {
outs.add(link.attr(atr));
System.out.println("\nlink : " + link.attr(atr));
}
} catch (IOException | SelectorParseException e) {
e.printStackTrace();
}
return outs;
}
使用此代码,我收集链接
String expCam = "tr[class='gallery cameras'] > td[class='title'] > a[href]";
String url = "https://www.dpreview.com/sample-galleries?category=cameras";
String atr = "href";
List<String> cams = html_compiler(url, exp, atr); // This gives me the links of individual cameras
String exp2 = "some expression";
html_compiler(cams.get(0), exp2, "src"); // --> this should give me image links of the first
//camera but webpage returns same html as above
我该如何解决这个问题?我很想听听根据相机型号对图像进行分类的其他页面。 (Flickr 除外)
编辑: 例如在 java 中,以下两个链接给出了相同的 html。
https://www.dpreview.com/sample-galleries?category=cameras
https://www.dpreview.com/sample-galleries/2653563139/nikon-d1-review-samples-one
【问题讨论】:
-
您可以尝试使用
abs:hrefattr 吗? Take a look here for an example. -
@DavidePastore 都返回相同的结果,我认为这与绝对链接无关。
-
第二个链接似乎在加载图片的浏览器中触发了一些 javascript。尝试在浏览器中使用调试工具打开这两个链接。 (firefox中ctrl+shift+Q)你要找出图片链接是如何在页面源中某处创建的。
-
听起来网络服务器可能正在做一些奇怪的事情。两个链接返回相同的 HTML 是没有意义的,除非:1) URL 无效并且您看到的是 404 页面响应,2) 该站点是 SPA(单页应用程序),在这种情况下,所有URL 很可能会返回应用程序,或者 3) Web 服务器正在过滤用户代理以防止机器人。对于 1,您需要修复您的 URL。对于 2,不确定您需要做什么,但我怀疑这是问题所在。对于 3,您可以“欺骗”您的用户代理,看看是否有帮助。
-
对我上一条评论的一点更新:第一页上的链接有三个附加的 javascript 事件处理程序。其中一个创建了一个
SampleGalleryV2,它控制图片库的行为。搜索链接到该页面的 javascript 文件以获取详细信息。
标签: java web-crawler jsoup data-collection