【发布时间】:2010-01-03 12:53:58
【问题描述】:
我目前正在解析一堆邮件,并希望从邮件中获取单词和其他有趣的标记(即使存在拼写错误或字符和字母的组合,例如“zebra21”或“customer242”)。但是我怎么知道“0013lCnUieIquYjSuIA”和“anr5Brru2lLngOiEAVk1BTjN”不是单词并且不相关?如何提取单词并丢弃编码错误或部分 pgp 签名的令牌或我们在邮件中收到的任何其他内容并知道我们永远不会对这些感兴趣?
【问题讨论】:
标签: algorithm nlp lexical-analysis