讲解java爬虫 - 爱码网

讲解爬虫基础

在本文中我将写一个爬虫爬取拉钩网的信息，并存到数据库中。用的是Struts2的框架。

需要的知识：懂得java语言语法，Html语法。

进入正题：

一、明确要抓取的信息。

比如说我在这个webapp中要抓取的信息是：

工作名称，公司名称，公司网址，福利，月工资，发布日期，工作地点，工作性质，最低学历，职位类别

1、建立一个Struts2 web项目导入需要的架包

2、搭建起基本的框架

讲解java爬虫

3、建立连接

利用方法获取连接

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2");

Document对象是网页解析之后的一种对象类型，在加载后可以输出。

当我输出时发现，得不到我想要的内容，于是输出整个网页看一下，发现结果是这样的

讲解java爬虫

此时分析可能的原因，一般来说是网站采取了，反爬虫机制，首先尝试第一种就是写入浏览器的头文件。

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0").get();

这样再运行一下就可以的到想要的内容

3、分析网页

建议大家使用谷歌浏览器，F12分析源码。

讲解java爬虫

大家可以清晰的看到它的结构，所以也不需要借用其他工具了。

Elements elements = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");

利用选择器选择本页面所有的职业信息Elements是element的集合，接下来一步一步抓取需要的信息。

输出所需的信息

讲解java爬虫

这样的到的数据，输出就是这样的，我们就可以把他添加到数据库中了。

那些就不再说了。