【问题标题】:Extract similar words from a corpus从语料库中提取相似词
【发布时间】:2023-04-07 19:06:01
【问题描述】:

我想从语料库中提取相似的词。相似度基于字符串。即,当两个词的串高度相似时,将两个词提取为相似词。例如,如果语料库包含:Aras、bahro、arasis、adkpo、bah、aras sd、kio。

相似词:

1- aras,arasis,aras sd

2- 呸,呸

如何解决这个问题? 谢谢。

【问题讨论】:

    标签: nlp string-matching similarity text-extraction approximate


    【解决方案1】:

    Levenshtein distance 是衡量两个单词序列之间差异的度量,也许您可​​以取一个单词序列并计算距离以知道它们是否相似。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-09-01
    • 2019-02-01
    • 2013-01-08
    • 1970-01-01
    • 2011-05-09
    • 2012-02-23
    • 1970-01-01
    • 2016-06-13
    相关资源
    最近更新 更多