【问题标题】:Building a distributed index on Azure and Lucene.NET. Should I learn Solr and Hadoop?在 Azure 和 Lucene.NET 上构建分布式索引。我应该学习 Solr 和 Hadoop 吗?
【发布时间】:2011-03-29 16:54:06
【问题描述】:

我需要基于 Azure/Lucene.NET 实现的搜索索引。话虽如此,我对 Solr 和 Hadoop 或它们为 Linux 人群提供什么了解不多。

由于我不知道我前面的学习曲线,我会告诉你我在寻找什么,也许你可以告诉我应该如何度过我的时间。

我有兴趣从我们的系统中索引越来越多的电子邮件。在发送或接收消息时,它们需要是可搜索的。这意味着索引可能会变得巨大,这就是我们关注云存储的原因。考虑到我对 Azure 很熟悉,管理建议我们使用 Lucene.NET。

您认为对我来说最好的打发时间的方式是:研究如何让 Lucene.NET 为我的文档编制索引,或者查看 Solr/Hadoop 的实现。

【问题讨论】:

    标签: lucene solr lucene.net azure-blob-storage


    【解决方案1】:

    在不了解您的源语料库规模的情况下(我们在一个近乎实时的应用程序中运行几个 TB),我可以分享一些我们的经验。我们主要是一家 .NET 商店,我们发现使用 Solr 非常容易,使用 SolrNet 等工具,并且为我们的开发人员提供了非常简单的学习曲线。

    使用 Solr 的优势有很多:从诸如 faceting 等显而易见的优势,一个简单、灵活的 API(如果您需要)等等;事实上,它拥有更活跃的社区并拥有最新最好的功能和修复(cf. Lucene.net)。重要的是,我们可以轻松地使用 Solr 与商用机器进行线性扩展(抱歉无法与使用云进行比较),但鉴于我们用于分片的机器成本(几乎为零),我无法想象使用 Azure 或AWS 会更便宜。

    希望对您有所帮助。

    【讨论】:

    【解决方案2】:

    如果您可以通过 HTTP 与索引机器通信,我建议您使用 Solr。只需更改配置文件,您就可以非常轻松地设置 Solr 服务器,而无需任何编程。它可以很好地扩展,请参阅:Scaling Lucene and Solr。目前正在开发中的是Solr Cloud,这将使 Solr 的扩展更容易并支持一些类似 hadoop 的功能。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-11-28
      • 1970-01-01
      • 1970-01-01
      • 2021-01-21
      • 1970-01-01
      • 2010-10-08
      • 2014-08-21
      • 1970-01-01
      相关资源
      最近更新 更多