【发布时间】:2010-08-23 16:08:53
【问题描述】:
我正在考虑将大量数据实时导入 Lucene 索引的需求。这将包含各种格式的文件(Doc、Docx、Pdf 等)。
数据将作为批量压缩文件导入,因此需要将它们解压缩并索引到单个文件中,并以某种方式与整个文件批量相关。
我仍在试图弄清楚如何实现这一点,但我认为我可以使用 Hadoop 进行处理并导入到 lucene。然后我可以将 Solr 用作 Web 界面。
因为 Solr 已经可以处理数据,我是不是把事情复杂化了?由于导入的 CPU 负载非常高(由于预处理),我认为无论实现如何,我都需要将导入和随意搜索分开。
问:“请定义大量数据和实时性”
“大量”数据是每年(或更多)10 亿封电子邮件,平均大小为 1K,附件从 1K 到 20 Megs 不等,少量数据从 20 Megs 到 200 Megs 不等。这些通常是上面提到的需要索引的附件。
实时意味着它支持在准备好导入后 30 分钟或更短时间内进行搜索。
SLA:
我想为搜索操作提供 15 秒或更短的搜索 SLA。
【问题讨论】:
-
请定义“大量数据”和“实时”
-
@Mauricio Scheffer 在上面更新了...
-
这确实符合“很多”的条件:-)
标签: solr lucene.net hadoop lucene