【问题标题】:How to start building a java based web-scraping tool如何开始构建基于 Java 的网络抓取工具
【发布时间】:2023-04-10 14:01:01
【问题描述】:

什么是开始构建网络抓取工具的最佳(也是最短)方法,该工具足够灵活,可以处理几乎所有类型的网站,并且能够将这些网站存储在数据库中以供检索。

我想构建类似于“谷歌搜索”的东西,其中“谷歌搜索”在进行搜索之前将所有网站缓存到他们的服务器。

这是我的研究项目的组成部分之一。

如果已经有一些开源项目,请告诉我,这将使我的任务更容易。

我更喜欢用 java 来构建它。

【问题讨论】:

    标签: java web-scraping information-extraction


    【解决方案1】:

    例如heritrix 之类的东西?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2023-01-25
      • 2017-03-10
      • 1970-01-01
      • 1970-01-01
      • 2011-05-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多