使用WebMagic爬虫框架爬取暴走漫画

WebMagic是黄亿华先生开发的一款Java轻量级爬虫框架。我之所以选择WebMagic，因为它非常轻量级，可以学习爬虫的原理，而且用WebMagic非常容易进行功能扩展。也许你会听过另一个爬虫框架，Heritrix。博主一开始也是先入手了Heritrix，但是后来发现Heritrix实在是不够轻量级，因为博主只是想自己做个爬虫玩玩，并且能对爬虫的原理有更深刻的认识，所以，博主后来就开始入手更轻量级的WebMagic。由于博主也是刚接触WebMagic，写博客也只是为了记录我的学习到的知识，文章如有纰漏，敬请指正。

一、首先我们看一下我们要爬取的网页，这个demo中，我打算爬取暴走漫画的中的笑话，内容包括作者名称（author），笑话内容(xontent)，上传日期(time)

二、定义一个实体类封装爬取内容

[java]view
plain copy

public class BaozouNews {  

// 作者  

private String author;  

// 提交时间  

private String time;  

// 内容  

private String content;  

getter and setter...  

}

三、WebMagic中最重要的组件就是PageProcessor，它决定了你抓取数据的逻辑。

1）确定要加入待爬取队列的超链接。

我们爬取起始位置为第一页，因此我们要将其他页码的超链接加入待爬队列

使用WebMagic爬虫框架爬取暴走漫画

我们可以清晰看到页码的超链接存放在class为pager-content的div块中，因此可以如下将超链接加入队列中，css选择器详见css参考手册

[java]view
plain copy

page.addTargetRequests(page.getHtml().css("div.pager-content").links().all());  

使用WebMagic爬虫框架爬取暴走漫画

2）确定待爬取数据。

文章内容（content）是class为article article-text的div的data-text属性，因此其xpath为，关于xpath详见xpath教程

[java]view
plain copy

String content=page.getHtml().xpath("//div[@class='article article-text']/@data-text").toString()  

作者（author）是class为article-author-name的a的字符串部分

[java]view
plain copy

String author=page.getHtml().xpath("//a[@class='article-author-name']/text()").toString()  

依此类推

[java]view
plain copy

String time=page.getHtml().xpath("//span[@class='article-date']/text()").toString()  

使用WebMagic爬虫框架爬取暴走漫画

四、根据第三步的分析，写自己的PageProcessor

[java]view
plain copy

public class BaoZouProcessor implements PageProcessor {  

    private Site site = Site.me().setRetryTimes(3).setSleepTime(100);  

    @Override  

    public void process(Page page) {  

        page.addTargetRequests(page.getHtml().css("div.pager-content").links().all());  

        BaozouNews news = new BaozouNews();  

        news.setAuthor(page.getHtml().xpath("//a[@class='article-author-name']/text()").toString());  

        news.setContent(page.getHtml().xpath("//div[@class='article article-text']/@data-text").toString());  

        news.setTime(page.getHtml().xpath("//span[@class='article-date']/text()").toString());  

        page.putField("news", news);  

    }  

    @Override  

    public Site getSite() {  

        return site;  

    }  

}

五、编写自己的Pipeline，将爬取到的数据保存到数据库

[java]view
plain copy

public class BaoZouPipeLine implements Pipeline {  

    @Override  

    public void process(ResultItems resultItems, Task task) {  

        BaozouNews news = (BaozouNews) resultItems.get("news");  

        Dao.insert(news);//将数据插入数据库  

    }  

}

六、将对数据库的操作进行简单的封装

[java]view
plain copy

public class Dao {  

    private static Connection getConn() {  

        String driver = "com.mysql.jdbc.Driver";  

        String url = "jdbc:mysql://localhost:3306/baozou";  

        String username = "root";  

        String password = "";  

        Connection conn = null;  

        try {  

            Class.forName(driver); // classLoader,加载对应驱动  

            conn = (Connection) DriverManager.getConnection(url, username, password);  

        } catch (ClassNotFoundException e) {  

            e.printStackTrace();  

        } catch (SQLException e) {  

            e.printStackTrace();  

        }  

        return conn;  

    }  

    public static int insert(BaozouNews news) {  

        Connection conn = getConn();  

        int i = 0;  

        String sql = "insert into baozou (author,time,content) values(?,?,?)";  

        PreparedStatement pstmt;  

        try {  

            pstmt = (PreparedStatement) conn.prepareStatement(sql);  

            pstmt.setString(1, news.getAuthor());  

            pstmt.setString(2, news.getTime());  

            pstmt.setString(3, news.getContent());  

            i = pstmt.executeUpdate();  

            pstmt.close();  

            conn.close();  

        } catch (SQLException e) {  

            e.printStackTrace();  

        }  

        return i;  

    }  

}

七、编写测试类

[java]view
plain copy

public class Test {  

    public static void main(String[] args) {  

        Spider.create(new BaoZouProcessor())  

                // 从"http://baozoumanhua.com/text"开始抓  

                .addUrl("http://baozoumanhua.com/text").addPipeline(new BaoZouPipeLine())  

                // 开启5个线程抓取  

                .thread(5)  

                // 启动爬虫  

                .run();  

    }  

}

八、查看数据库结果，如图，成功地将网页上的数据保存到了数据库中使用WebMagic爬虫框架爬取暴走漫画

这只是一个简单的WebMagic爬虫的实例，但是还是可以学到很多东西。