【发布时间】:2013-08-04 12:39:46
【问题描述】:
我正在开发一个基于 Python/NLTK 的 NLP 项目,其中包含非英语 unicode 文本。为此,我需要在句子中搜索 unicode 字符串。
有一个 .txt 文件保存了一些非英语的 unicode 句子。使用 NLTK PunktSentenceTokenizer 我打破了它们并保存在 python 列表中。
sentences = PunktSentenceTokenizer().tokenize(text)
现在我可以遍历列表并分别获取每个sentence。
我需要做的是检查 sentence 并确定哪个单词具有给定的 unicode 字符。
例子-
sentence = 'AASFG BBBSDC FEKGG SDFGF'
假设上面的文本是非英语 unicode,我需要找到以 GF 结尾的单词,然后返回整个单词(可能是那个单词的索引)。
search = 'SDFGF'
同样,我需要找到以BB 开头的单词。
search2 = 'BBBSDC'
【问题讨论】: