【问题标题】:search engine ideas for description of results搜索引擎对结果描述的想法
【发布时间】:2012-06-01 16:00:38
【问题描述】:

我正在制作一个用于全文搜索的搜索引擎,但在显示带有描述的结果时出现了性能问题。我为当前查询制作了结果,但是当我尝试获取文本并突出显示关键字所在的部分时,表现不佳。我使用 pdf、txt、doc、docs、html 等。所以我的搜索引擎的工作方式如下:

  • 我有一个用于存储文档文本的数据库表
  • 我有一个数据库表,我用它的频率索引文本

这个场景真的好吗。我必须搜索索引并获取文档,解析文本,获取句子,使用关键字过滤句子。无描述搜索的表现是:

**Крушевското Востание 1903** 0,00518989562988
**Даме Груев** 0,00394678115845
**Даме Груев и Гоце Делчев**  0,0916090011597
**Државен празник Илинден** 0,0072648525238
**Даме** 0,00195503234863
**Александар Македонски** 0,0423209667206
**Бранко Црвенковски и Никола Груевски** 0,0233609676361
**СДСМ и ВМРО-ДПМНЕ** 0,0295231342316
**Македонија** 0,0435738563538
**Никола Груевски и Македонија** 0,0451180934906

搜索关键字是我的母语,文档集合是 3679。使用句子的描述标签,我的结果显示速度要慢 10 到 20 倍。 (比如 2-3 秒)。搜索是在 python 中进行的。

有什么建议吗?

【问题讨论】:

    标签: python search full-text-search full-text-indexing


    【解决方案1】:

    我真的建议你看看像 Elastic search 和 Solr(都基于 Lucene)这样的项目,它们都支持你想做的事情(全文搜索、结果突出显示......)等等。

    【讨论】:

    • 我知道他们,我正在研究 lucene,但我想是否有人对我的情况有想法。
    • @badc0re 如果您添加有关突出显示部分的更多详细信息,我可以看看。
    • 不只是一个类,还有很多。
    猜你喜欢
    • 2020-06-23
    • 2021-02-08
    • 2014-01-29
    • 1970-01-01
    • 2012-10-25
    • 2011-08-18
    • 1970-01-01
    • 1970-01-01
    • 2010-11-12
    相关资源
    最近更新 更多