【发布时间】:2018-04-01 23:43:28
【问题描述】:
我正在尝试解析一些网络域(数万个)以查看它们是否包含任何英文单词。
我很容易解析域以使用tldextract 获取域的主要部分,然后我尝试使用enchant 来查看它们是否存在于英语词典中。
问题是我不知道如何将域拆分为多个单词进行检查,即latimes 返回为 False,但times 将返回为 True。
如果字符串中包含一个英文单词,有没有人知道一个聪明的方法?
谢谢!
【问题讨论】:
-
这肯定不是解决您要解决的任何问题的最佳方法......而且在许多情况下它可能总是模棱两可
-
有什么建议吗?我正在尝试将英语和西班牙语域列表分成两个列表。
-
为什么不使用 whois 查找它们?
-
有没有办法以编程方式做到这一点?好像有一些付费 API 的
-
免费添加到您的搜索中,其中大多数都是免费的,直到有限制...哦,您超出了限制...您可能需要支付 5.00 或其他费用(或者每月支付 11k,直到您获得通过列表)你也可以使用一些模糊字符串匹配来尝试猜测......但latimes可能会认为它在所有情况下都是西班牙语,除了whois
标签: python parsing dataframe web