介绍:
优点:
1、与java形成良好的支持
2、jsoup技术类似于
同类型产品:
1、入门 级:八爪鱼提取工具
2、jsoup:java原生提供的爬取工具
入门案例:
爬虫原理:模拟http请求,然后从目标网站或整个或者json数据/xml数据
爬虫步骤:
1、定位目标网站url
2、模拟http请求爬取数据
3、分析处理页面信息
4、将数据封装特定的格式后入库
获取静态数据
@Test public void test01() throws IOException{ String url = "http://www.it211.com.cn/web/index_new.html?tedu"; Document dom = Jsoup.connect(url).get(); Element element1 = dom.select(".b_search").get(0); Element element2 = element1.select("div h2").get(0); String result = element2.text(); System.out.println(result); }