【问题标题】:Open Search Server at Production level?在生产级别打开搜索服务器?
【发布时间】:2012-10-17 20:36:18
【问题描述】:

我想使用 Open Search Server http://www.open-search-server.com/ 在生产级别创建网络搜索引擎。有没有其他好的免费软件来创建搜索引擎?我想抓取数百万个网站。

【问题讨论】:

    标签: search-engine


    【解决方案1】:

    (披露:本文作者隶属于本文提及的网站/产品)

    OpenSearchServer 基于 Lucene。此外,它还包含一个强大的网络爬虫,能够索引数百万个页面。我是这个软件的创始人。我在为数千个网站编制索引的项目中使用它。

    但是,为数百万个网站编制索引是另一回事。您需要将爬网分布在多个服务器上以构建分布式索引。

    然后您使用另一个服务器池来处理来自您的用户的搜索请求。 可以使用多个 OpenSearchServer 实例来做到这一点。

    无论您选择何种软件,都必须谨慎选择硬件,尤其是存储部分。在大索引上,搜索查询的性能与存储的性能有关。欢迎使用大型 RAID 池或 SSD 磁盘。

    【讨论】:

    • 大索引查询速度会不会慢?
    • 这取决于大小。一台具有 RAID 或 SSD 的服务器,具有 16GB 的 RAM,可以处理数千万个文档,查询执行时间快(
    • 我有大约 50,000 个网站。这些文件将达到数十亿。
    • 当我向服务器发送请求时,我也收到此错误“com.jaeksoft.searchlib.web.ServletException: java.lang.NullPointerException”
    • 最好使用 SourceForge 上的论坛解决技术问题。主要是您必须在将索引用于查询之前对其进行优化。一个好的做法是使用复制功能复制索引。网络爬虫在第一个索引上工作。每小时或每天,根据您的选择,您可以使用调度程序将第一个索引复制到第二个索引。一个典型的场景是:停止网络爬虫,优化索引,做复制,启动网络爬虫。
    【解决方案2】:

    搜索引擎最流行的开源软件是nutch和lucence。 Nutch是网页爬虫,这里是main page

    Lucence是一个索引服务器,这里是main page

    您可以使用这两个软件来构建搜索引擎

    【讨论】:

    • 他们有像opensearchserver这样的内置管理界面吗?
    • @GopaSoft 是的,他们有基于网络的管理控制台。
    猜你喜欢
    • 1970-01-01
    • 2013-02-10
    • 2010-11-05
    • 2010-12-21
    • 1970-01-01
    • 2021-02-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多