【发布时间】:2012-07-10 06:58:21
【问题描述】:
我在尝试实现全文搜索时遇到了问题。对我来说,它更像是数学/统计,而不是任何东西。从数据库中提取的数据是书名,因此查询返回的分数可能具有非常接近的值(例如:9.98;9.97;9.78 - 这些都是非常相关的结果)或分布广泛(例如:9.99;8.2;2.1 -前两个是相关的,第三个是噪音)。我不知道如何操纵查询结果来删除不相关的。标准偏差不起作用,因为它在我的第一个示例中过滤了好的结果,各种归一化方法要么省略相关结果,要么包含不相关的结果。请有任何想法或想法。
谢谢。 维克多
【问题讨论】:
-
我不知道您项目的确切限制和用例,但是在制作书名搜索功能时,我想知道......最好让您担心决定什么是相关的?用户可能会选择糟糕的搜索词并最终将他们真正想要的内容放在该特定搜索的排名列表的底部。另外,结果会以分页方式显示吗?也许不值得担心异常值,只允许您的分页机制隐藏不太相关的选项,而不会完全阻止用户找到它们。
标签: php mysql full-text-search statistics