【发布时间】:2013-08-10 21:49:45
【问题描述】:
我编写了一个脚本,它可以生成可能的 Twitter 句柄并检查它们的可用性。它只是遍历允许符号的不同组合:a-z, 0-9, _。
目前它已经检查了 1926220 个组合,即每个包含 1-5 个符号的组合。以下是简要结果:0 1、2 和 3 个符号的免费帐户,750 4 个免费帐户,442711 5 个。
我想知道是否有可能编写一个算法来分析这些列表并在其中找到人类可读的单词。这是一个例子:
elnsv
elnt8
eloq4
elosu
elq0_
elq15
elq46
elosu 这个词与其他词不同,事实证明西班牙甚至有一个名为 Elosu 的小镇。人类如何区分这些词?我想我可以尝试制作一本不同语言的音节标签字典,并尝试将单词与之进行比较。你能帮我解决公式或其他想法吗?
更新:对于那些想要尝试实现它的人,这里是5-symbol handles的链接。
【问题讨论】:
标签: algorithm text grammar lexical-analysis linguistics