网络抓取少数网站并搜索其内容[关闭]答案

【问题标题】：Web crawling few websites and searching their content [closed]网络抓取少数网站并搜索其内容[关闭]
【发布时间】：2013-06-17 21:14:21
【问题描述】：

我打算构建一个服务，提供特定网站中特定网页的摘要内容。

因此，我没有依赖 Google 或 Bing API（这需要花钱），而是考虑搜索可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的，因此例如 Apache Nutch 对项目来说太大了。

理想的解决方案是一个可嵌入的库，它可以获取网站列表、获取其内容并将它们保存在数据库中以供以后搜索。有什么建议？

【问题讨论】：

【解决方案1】：

爬虫和索引器通常是两个独立的组件。

对于爬取，你可以使用 crawler4j 看看https://code.google.com/p/crawler4j/ 。这很简单，但我认为它涵盖了您正在寻找的一些功能。您可能需要使用 JDBC 调用来保存结果，但它会为您很好地进行爬网。
对于索引，您可以使用 lucene 查看http://lucene.apache.org/core/。

我还建议看看西北大学，它比我能更好地描述这种方式......所以这里是 link 给你的

【讨论】：

【解决方案2】：

您的意思是您打算构建一个汇总 Web 内容的服务？以下是您可以使用的一些 API：

还有一些我自己的：

最后 2 个基于这个关于如何创建自己的摘要器的优秀教程 - http://thetokenizer.com/2013/04/28/build-your-own-summary-tool/

【讨论】：