【发布时间】:2013-02-28 04:29:40
【问题描述】:
我有一些文字:
s="Imageclassificationmethodscan beroughlydividedinto two broad families of approaches:"
我想将其解析为单独的单词。我迅速查看了附魔和 nltk,但没有看到任何看起来立即有用的东西。如果我有时间在这方面进行投资,我会考虑编写一个动态程序,该程序具有 enchant 检查单词是否为英文的能力。我本来以为网上会有这样的事情,我错了吗?
【问题讨论】:
-
您可以将您的单词字典编码为 trie 并使用贪心算法:提取匹配的最长单词,然后继续下一个单词,失败时回溯。可能不是最优的。试试这个以获得有关数据结构的建议:kmike.ru/python-data-structures
-
有趣的问题。我猜答案(“简单的方法”)将是“不”。
-
之前问的类似问题运气不好:stackoverflow.com/questions/13034330/…
-
例如,你的算法怎么知道它不是
be roughly divide din to?都是正确的英文单词…… -
@Tim Pietzcker:因为那不是贪婪的方法。 “贪婪,没有更好的词,是好的。贪婪是对的。贪婪起作用。” en.wikipedia.org/wiki/…