【问题标题】:How to remove lines that do not contain an English word or noun? [closed]如何删除不包含英文单词或名词的行? [关闭]
【发布时间】:2021-12-31 00:36:28
【问题描述】:

所以我有一个庞大的过期域列表,我想通过我的域排名检查工具运行这些域。我要删除不包含单词或名词的域的原因是因为使用此工具检查它们需要花费,该工具每分钟检查约 1,000 个,它将返回 Moz Stats 和 Majestic Stats。如果不花钱,那我就把它们全部运行一遍。

我已经创建了一些脚本来删除我不喜欢的模式,例如四个或更多连续数字、我不想包含的域扩展等...

但是我仍然有大量丑陋的域名留下来,因为我会一遍又一遍地重复这个任务,因为我会刮掉更多过期的域,我希望找到一个解决方案来阻止域包含英文单词或名词的剩余域名列表。

是否已经有一个工具可以做到这一点,但我忽略了?

如果不是,那么您建议如何完成这项任务并能够在下一个出现的列表中重复它?

我假设我需要一个单词列表和一个名词列表,例如“Rolex”。

我用我编写的正则表达式摆脱了很多垃圾域,但现在我被困在如何继续这最后一步。

很抱歉,如果我要求太多,但我感谢您提供的任何帮助或指导。

感谢堆栈!

【问题讨论】:

  • 请添加到您的问题中(无评论):您搜索了什么,找到了什么?您尝试过什么,它是如何失败的?
  • 主要要求是单词表。 Ubuntu 在/usr/share/dict/american-english 上包含了一份包含 100,000 个英文单词的列表。您还需要处理与 TLD 的英文单词冲突,例如 net
  • 无论您使用什么字典,我都认为它会或可能会被订购。在内存中保存它应该非常快地对每个单词执行binary search
  • 谢谢大家!当我有机会时,我一定会更新我的帖子。再次感谢!

标签: python regex vim grep notepad++


【解决方案1】:

尝试使用 pyDictionary 模块生成单词列表

【讨论】:

  • 这应该是对问题的评论。
  • @CarySwoveland,对不起,我是堆栈溢出的新手,所以它不会让我发表评论,我只是想提供帮助
  • @CarySwoveland,它不会让我评论实际的帖子只是问题¯_(ツ)_/¯
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-10-21
  • 1970-01-01
  • 2014-12-11
  • 2012-01-08
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多