【问题标题】:guide to setup crawler4j设置 crawler4j 的指南
【发布时间】:2011-02-16 05:17:24
【问题描述】:

我想设置爬虫来爬取网站,比如说博客,然后只获取网站中的链接并将链接粘贴到文本文件中。你能指导我一步一步设置爬虫吗?我正在使用 Eclipse。

【问题讨论】:

    标签: java web-crawler crawler4j


    【解决方案1】:

    Jsoup 会做所有你需要的 html 解析。 Jsoup 是一个用于处理 html 源代码的 java api。你可以得到

    1. 表格,您可以使用它解析每一行或每一列。
    2. 所有链接的列表和该 html 的源导入(如 css 和 js 文件)。
    3. 特定标签的数据。

    还有更多。

    为了您的目的,here 是示例代码。

    希望这会对你有所帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-02-12
      • 2016-07-27
      • 2013-03-17
      • 1970-01-01
      • 2012-12-10
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多