爬虫是一个非常实用的技术,每种语言都有相应的实现方式。这里给一个JAVA的实例。后面主要以python为主,毕竟是业内比较认可的爬虫行业老大。

爬虫主要分为两个部分,一个是提取,一个是解析。提取也就是发网络请求数据,java里可以用URLCollection,HttpClient,RestTemplate,okhttp等。我采用的是RestTempate,他是spring的东西,也比较好用。解析html的是Jsoup。

这里以爬取电影天堂中首页最新的电影和其相应的下载链接。

目标如下:java版本----简单爬虫

java版本----简单爬虫

查看html如下:java版本----简单爬虫

java版本----简单爬虫

代码如下:

java版本----简单爬虫

 

结果好下:

java版本----简单爬虫

项目地址见:http://www.storm-spirit.cn/

相关文章: