【发布时间】:2016-04-22 07:03:00
【问题描述】:
在深入研究一些不太漂亮的文档和/或购买ebook之前,我遇到了这个非常大的工具:我只是想问一下:
Apache Nutch 如何处理 javascript 繁重的网站,以及它如何获取页面? 我的意思是:它如何克服 IP 禁令?
【问题讨论】:
-
糟糕的文档?
-
嘿,对不起 :) 只是我读了一些说明性和实用性更强的书
标签: java hadoop web-crawler nutch