【问题标题】:Python, compare strings in Counter and assign to closest matchPython,比较计数器中的字符串并分配给最接近的匹配项
【发布时间】:2022-07-06 23:15:47
【问题描述】:

我有一个人类编写的输入文本列表。将此文本导入 python 并生成一个计数器。在计数器中,所有来自人类的输入都被列出并计数。最后得到类似的东西:

“输入1”:3,

"输入 2" : 1, ...

我遇到的问题是,有时这些输入有拼写错误或缺少单词之间的空格等。我如何浏览此列表并将其与一些参考输入进行比较,并为每个计数器行分配井的总计数书面输入 + 来自具有拼写错误的最相似输入的输入。我知道这属于 NLP 领域,但我真的找不到在柜台上做这件事的方法

【问题讨论】:

  • 到目前为止你尝试过什么?此外,如果您提供了方法的明确输入和预期输出,这将很有帮助

标签: python nlp


【解决方案1】:

我的第一次尝试是Levenshtein Distance,没有应用任何机器学习 这将使您在字符串之间产生一些具体的相似性,并对“无错误”字符串和有错字的字符串之间的联系做出有根据的猜测。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-03-29
    • 2023-03-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-12-30
    • 2011-08-17
    相关资源
    最近更新 更多