【问题标题】:Identify Indian names in a given string of combined name tokens在给定的组合名称标记字符串中识别印度名称
【发布时间】:2020-01-31 06:40:54
【问题描述】:

我确实有一组不同的名称标记以及组合不同名称的数据。 例如。如果该名称有 3 个标记,如“abc def ghi”并给出名称“abcdef”或“abcdefghi”,我想识别该组合名称字符串的不同有效标记。我们可以构建一个名称标记字典并使用一些 NLP 技术或 python 库来实现这一点吗?请就如何开始提供您的意见。

【问题讨论】:

  • “abc def ghi”是印度名字吗?
  • 请考虑在@DYZ 建议的实际示例中包含minimal reproducible example。还请提供您目前正在使用的任何当前代码或方法。

标签: python-3.x nlp nltokenizer


【解决方案1】:

如果你需要在一个字符串中找到一个子字符串,你只需要一个标记列表和一个循环:

tokens = ['abc', 'def', 'ghi']
name = 'abcdef'
for token in tokens:
    if token in name:
        print(token, 'is part of', name)

See also如果需要查找子串在字符串中的位置。

【讨论】:

    猜你喜欢
    • 2013-01-13
    • 1970-01-01
    • 2015-04-02
    • 1970-01-01
    • 2015-05-12
    • 2014-02-24
    • 1970-01-01
    • 2022-11-10
    • 1970-01-01
    相关资源
    最近更新 更多