【发布时间】:2009-04-26 04:35:13
【问题描述】:
SO 是如何实现标记搜索的?是否使用 Lucene 或任何其他开源搜索引擎库进行标记搜索?
搜索文档(PDF、XML、HTML、MS Word)或数据库的最佳方式是什么?
【问题讨论】:
-
查看“Stack Overflow 是用什么构建的”:stackoverflow.com/questions/749358
标签: search lucene tags tagging
SO 是如何实现标记搜索的?是否使用 Lucene 或任何其他开源搜索引擎库进行标记搜索?
搜索文档(PDF、XML、HTML、MS Word)或数据库的最佳方式是什么?
【问题讨论】:
标签: search lucene tags tagging
搜索标签与搜索文本有很大不同。标记搜索正在搜索问题都与特定标记相关联的关联。这可以通过全文引擎实现,其中所有标签都附加在一个大条目中,但在这种情况下,关系数据库可能是最好的(假设标记的数据一开始就在关系数据库中)。
要搜索 PDF、XLS、HTML 等其他文档,您需要像 Lucene 这样的全文。您需要一个解析器,它可以仅从每个源中提取相关文本(即,将文本与标记分开)。
【讨论】:
所以,是的,它使用的是 Lucene.NET,但我不确定具体是如何使用的。 “最好”的方式是完全不同的故事。
【讨论】:
上次讨论这个问题时(在播客上)提到 Stackoverflow 使用 SQL Server 的全文搜索功能,而不是 Lucene。
【讨论】:
SO 不使用 Lucene。
如果您想索引文档并运行 Windows,那么IFilters 将是我的首选。
【讨论】: