【发布时间】:2021-11-06 01:17:09
【问题描述】:
有没有办法比较sql中句子之间的相似度?我有很大的数据集,我需要识别两个或多个句子中有相似词的实例。
如何告诉 SQL 只返回以下值?
根据我的谷歌搜索,可能有一种方法可以使用全文搜索和语义搜索来做到这一点,但我已经能够找到一篇文章来解决我想要实现的目标。
小组中的某个人可以为我提供示例或指出可以帮助我的文章吗?更好的是,我正在尝试做的事情甚至可以在 SQL 中实现。
【问题讨论】:
-
即使是人类,我也无法理解“今天是个好日子”和“穿红色T恤的人”之间的关系。或者我看太多星际迷航
-
有很多关于匹配模糊文本的研究。我会从研究“莱文斯坦距离”开始,但还有更多。见en.wikipedia.org/wiki/Levenshtein_distance。顺便说一句,它已经在 Apache Commons 中用 Java 实现了。
-
Like 子句? SELECT * FROM Customers WHERE Sentence LIKE 'today%' 或 Sentence LIKE 'the%'
-
@Ash Nope,那是在一个退化的边缘情况下跳跃,会让你在面试中笑出声来。您实际上只是在句子中查找带有特定单词的所有句子-甚至不假设句子本身相似。
-
我只是提出一个非常简单的建议,试图让事情向前发展一点。确实,您应该使用 Python 或类似的东西来完成类似的事情。 SQL Server 不是此类工作的正确工具。
标签: sql sql-server full-text-indexing