【发布时间】:2013-06-17 21:14:21
【问题描述】:
我打算构建一个服务,提供特定网站中特定网页的摘要内容。
因此,我没有依赖 Google 或 Bing API(这需要花钱),而是考虑搜索可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的,因此例如 Apache Nutch 对项目来说太大了。
理想的解决方案是一个可嵌入的库,它可以获取网站列表、获取其内容并将它们保存在数据库中以供以后搜索。有什么建议?
【问题讨论】:
标签: java search-engine web-crawler