讲解爬虫基础

在本文中我将写一个爬虫爬取拉钩网的信息,并存到数据库中。用的是Struts2的框架。

需要的知识:懂得java语言语法,Html语法。

进入正题:

一、明确要抓取的信息。

比如说我在这个webapp中要抓取的信息是:

工作名称,公司名称,公司网址,福利,月工资,发布日期,工作地点,工作性质,最低学历,职位类别

1、建立一个Struts2 web项目导入需要的架包

2、搭建起基本的框架

讲解java爬虫

3、建立连接

利用方法获取连接

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2");

Document对象是网页解析之后的一种对象类型,在加载后可以输出。

当我输出时发现,得不到我想要的内容,于是输出整个网页看一下,发现结果是这样的

讲解java爬虫

此时分析可能的原因,一般来说是网站采取了,反爬虫机制,首先尝试第一种就是写入浏览器的头文件。

Document doc = Jsoup.connect("https://www.lagou.com/zhaopin/Java/2/?filterOption=2").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0").get();

这样再运行一下就可以的到想要的内容

3、分析网页

建议大家使用谷歌浏览器,F12分析源码。

讲解java爬虫

大家可以清晰的看到它的结构,所以也不需要借用其他工具了。

Elements  elements = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");

利用选择器选择本页面所有的职业信息Elements是element的集合,接下来一步一步抓取需要的信息。

输出所需的信息

讲解java爬虫

这样的到的数据,输出就是这样的,我们就可以把他添加到数据库中了。

那些就不再说了。

相关文章:

  • 2021-04-04
  • 2021-11-23
  • 2022-01-31
  • 2021-12-19
  • 2022-01-01
  • 2022-01-01
猜你喜欢
  • 2022-12-23
  • 2021-12-04
  • 2021-12-14
  • 2021-11-28
  • 2021-10-12
  • 2021-12-28
  • 2021-12-06
相关资源
相似解决方案