【问题标题】:Web crawling few websites and searching their content [closed]网络抓取少数网站并搜索其内容[关闭]
【发布时间】:2013-06-17 21:14:21
【问题描述】:

我打算构建一个服务,提供特定网站中特定网页的摘要内容。

因此,我没有依赖 Google 或 Bing API(这需要花钱),而是考虑搜索可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的,因此例如 Apache Nutch 对项目来说太大了。

理想的解决方案是一个可嵌入的库,它可以获取网站列表、获取其内容并将它们保存在数据库中以供以后搜索。有什么建议?

【问题讨论】:

    标签: java search-engine web-crawler


    【解决方案1】:

    爬虫和索引器通常是两个独立的组件。

    • 对于爬取,你可以使用 crawler4j 看看https://code.google.com/p/crawler4j/ 。 这很简单,但我认为它涵盖了您正在寻找的一些功能。您可能需要使用 JDBC 调用来保存结果,但它会为您很好地进行爬网。
    • 对于索引,您可以使用 lucene 查看http://lucene.apache.org/core/

    我还建议看看西北大学,它比我能更好地描述这种方式......所以这里是 link 给你的

    【讨论】:

    • 是的,这是一个很好的库。不过,我不清楚如何保存/索引和搜索数据。有什么想法吗?
    • @M-T-A 爬虫和索引器通常是两个独立的组件。我已经为您更新了以上信息。希望这会有所帮助。
    【解决方案2】:

    【讨论】:

    • +1 总结教程。
    • 重点不在于总结。这超出了我的问题范围。不过链接很好。
    猜你喜欢
    • 1970-01-01
    • 2019-07-04
    • 2011-02-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多