设置 crawler4j 的指南

【问题标题】：guide to setup crawler4j设置 crawler4j 的指南
【发布时间】：2011-02-16 05:17:24
【问题描述】：

我想设置爬虫来爬取网站，比如说博客，然后只获取网站中的链接并将链接粘贴到文本文件中。你能指导我一步一步设置爬虫吗？我正在使用 Eclipse。

【问题讨论】：

标签： java web-crawler crawler4j

【解决方案1】：

Jsoup 会做所有你需要的 html 解析。 Jsoup 是一个用于处理 html 源代码的 java api。你可以得到

表格，您可以使用它解析每一行或每一列。
所有链接的列表和该 html 的源导入（如 css 和 js 文件）。
特定标签的数据。

还有更多。

为了您的目的，here 是示例代码。

希望这会对你有所帮助。

【讨论】：

猜你喜欢

1970-01-01
2015-02-12
2016-07-27
2013-03-17
1970-01-01
2012-12-10
1970-01-01
1970-01-01

相关资源

下载 2021-06-24
下载 2023-01-05
下载 2023-01-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode