【发布时间】:2014-01-13 16:24:03
【问题描述】:
从远程数据源中,我得到了全部大写的文本字节(通常不超过 100 个字符)。这主要是自然语言,但有散布的首字母缩写词和标点符号(如 + 和 -)。我想做的是将此文本转换为可读的形式,也就是说,除了首字母缩写词和正确大写的名词和名称外,大部分都小写(这适用于德语,其中大写的单词多于,例如英文)。
我更喜欢 Cocoa (OS X) 的解决方案,但欢迎使用任何其他方法。我读过 NSLinguisticTagger(例如in this question),但似乎标记单词高度依赖于已经正确大写的单词。
【问题讨论】: