【问题标题】:How do I calculate similarity between two words to detect if they are duplicates?如何计算两个单词之间的相似度以检测它们是否重复?
【发布时间】:2022-07-30 21:22:23
【问题描述】:

我有两个词,我想计算它们之间的相似度,以便对它们是否重复进行排名。

如何使用深度学习/NLP 方法实现这一目标?

【问题讨论】:

标签: python deep-learning nlp lstm similarity


【解决方案1】:

这里有一些处理文本相似性的方法

基于字符串的方法

基于神经的方法

基于机器翻译的方法


但在考虑使用哪个库来衡量相似度之前,您应该尝试定义在相似度方面要衡量什么,

您是否试图通过句法差异来寻找语义相似性?

  • The dog ate the biscuit
  • The biscuit was eaten by the dog

您是否正在尝试查找词汇语义相似性?

  • This problem is driving me mad!
  • This problem is making me angry!

您是否试图找到蕴涵而不是相似性?

  • I ate Chinese food for dinner
  • I ate kungpao chicken for dinner

在没有上下文的情况下比较单个单词时,“相似性”的歧义变得更加复杂,例如

  • plantfactory

    • 如果plant 指的是工业厂房,它们可以是相似的
    • 但如果plant 指的是生物植物,它们是不相似的
  • bankfinancial institute

    • 如果bank指的是我们存取现金的地方,它们可能是相似的
    • 但如果bank 指的是河岸,它们就不一样了。

根据您想要使用相似度分数完成的最终任务,您可以定义许多其他方面的相似度。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-03-19
    • 2019-08-05
    • 1970-01-01
    • 1970-01-01
    • 2014-12-15
    • 2017-08-22
    • 2012-03-11
    相关资源
    最近更新 更多