迅速的HtmlUnit

  htmlunit是一款开源的web页面分析工具,理论上来说htmlunit应用于网页的自动化测试,但是相对来说更多人使用它来进行小型爬虫的快速开发。使用htmlunit进行爬虫开发不仅是其运行速度快,更重要的是此框架上手更为容易(相对于POST、selenium)。

基本环境

  1、java,首先你得安装好javaSDK(版本随意)、编译器(eclipse)

  2、HtmlUnit,项目以jar文件的形式发布,可以上官网下载最新版本(htmlunit-2.35.0-bin.zip)并解压,所有jar文件都在lib目录中。文末附下载链接

创建项目、引入jar包

  1、打开eclipse,新建一个java项目

【零基础】快速入门爬虫框架HtmlUnit

  2、右键项目选择属性(Properties)

【零基础】快速入门爬虫框架HtmlUnit

  3、选择“java Build Path”->“Libraries”->“Add External JARs”

【零基础】快速入门爬虫框架HtmlUnit

  4、找到前面下载的jar文件(htmlunit-2.35.0->lib目录),将所有jar文件选中,点击“打开”按钮,而后点击“OK”按钮,则htmlunit所有jar文件就引入了我们新建的项目,在此项目中也就可以直接使用htmlunit提供的各种功能来实现网页分析。

【零基础】快速入门爬虫框架HtmlUnit

简单实例

  1、新建一个class文件

【零基础】快速入门爬虫框架HtmlUnit

  2、输入下述代码

【零基础】快速入门爬虫框架HtmlUnit

【零基础】快速入门爬虫框架HtmlUnit

  运行一下看看是否得到了页面的xml代码以及百度网站首页的文本内容

 更多学习资料

  只是简单的运行起来当然不够,所以我们准备了更多的学习资料,关注公众号“零基础爱学习”回复“HU”获取《HtmlUnit官方简易教程中译版》,内容包括:

  1、使用不同版本的浏览器打开网页

  2、找到页面中特定的元素

  3、元素检索

  4、点击页面中的按钮


  以及前面说到的htmlunitjar包最新版本(htmlunit-2.35.0-bin)

 【零基础】快速入门爬虫框架HtmlUnit

 

相关文章:

  • 2021-12-16
  • 2021-11-13
  • 2021-04-19
  • 2021-06-20
  • 2021-05-18
  • 2022-12-23
  • 2020-01-07
  • 2020-01-08
猜你喜欢
  • 2023-01-19
  • 2022-02-28
  • 2021-10-02
  • 2021-06-08
  • 2021-12-06
  • 2021-06-28
  • 2022-02-09
相关资源
相似解决方案