【问题标题】:What are the easiest tools to use to make a search-engine?制作搜索引擎最简单的工具是什么?
【发布时间】:2014-10-13 04:20:42
【问题描述】:
我想构建一个搜索引擎来抓取一个网站,比如recipe.com,或者一个列出某种产品或服务的网站,索引相关信息,然后能够执行分面搜索。
我尝试使用 Nutch 和 Solr,但我坚持只索引相关信息而不是整个网页并在字段中对其进行索引。我现在正在尝试使用 Nutch plugin 来解析 html 页面,但我不擅长网络内容,我想知道是否有更简单的方法。
我不是在寻找最佳解决方案。
【问题讨论】:
标签:
indexing
web-crawler
search-engine
facet
【解决方案1】:
Windows 已经内置了搜索引擎。从 NT4 到 WinXP 都有索引服务,从 WinXP 到 Win8 有 Windows 桌面搜索,它们都可以配置为索引任意内容,包括远程站点。您只需配置源,确保索引完成,然后使用查询引擎进行搜索。
或者,MSSQL 服务器从 2005 版开始就内置了全文搜索。从 MSSQL 2008 开始,已经内置了 HTML 过滤器。
或者,如果您不喜欢 Windows,可以使用大量免费和商业的第三方解决方案。 Here’s the comparison.我没有任何经验,所以不能推荐任何。
【解决方案2】:
Scrapy 一个 python 工具将有助于抓取和抓取。您可以将产品抓取到 json 结构,然后在 elasticsearch 中进行索引。
大多数 OSS 工具都需要您亲自动手(即编程)。
P.S:您需要的不仅仅是搜索:请编辑标题“什么是最简单的抓取、抓取、索引和搜索工具”。