【问题标题】:How to find if english words exist in string如何查找字符串中是否存在英文单词
【发布时间】:2018-04-01 23:43:28
【问题描述】:

我正在尝试解析一些网络域(数万个)以查看它们是否包含任何英文单词。

我很容易解析域以使用tldextract 获取域的主要部分,然后我尝试使用enchant 来查看它们是否存在于英语词典中。

问题是我不知道如何将域拆分为多个单词进行检查,即latimes 返回为 False,但times 将返回为 True。

如果字符串中包含一个英文单词,有没有人知道一个聪明的方法?

谢谢!

【问题讨论】:

  • 这肯定不是解决您要解决的任何问题的最佳方法......而且在许多情况下它可能总是模棱两可
  • 有什么建议吗?我正在尝试将英语和西班牙语域列表分成两个列表。
  • 为什么不使用 whois 查找它们?
  • 有没有办法以编程方式做到这一点?好像有一些付费 API 的
  • 免费添加到您的搜索中,其中大多数都是免费的,直到有限制...哦,您超出了限制...您可能需要支付 5.00 或其他费用(或者每月支付 11k,直到您获得通过列表)你也可以使用一些模糊字符串匹配来尝试猜测......但latimes可能会认为它在所有情况下都是西班牙语,除了whois

标签: python parsing dataframe web


【解决方案1】:

除非你需要赶时间,你可以从字符串的开头切掉字母,然后检查它是否是一个已知的单词;如果是,请将其切断并重复。与例如50k 个单词,每个单词 20 个字母,最坏的情况是你会进行 1M 次查找。通过查找,例如5 毫秒(每次命中一个硬盘),这将需要 5000 秒(大约 1.5 小时),比你想出更好的算法所花费的时间要短。

【讨论】:

    猜你喜欢
    • 2022-06-17
    • 1970-01-01
    • 2016-04-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-11
    相关资源
    最近更新 更多