【问题标题】:Automatic case conversion of text文本的自动大小写转换
【发布时间】:2014-01-13 16:24:03
【问题描述】:

从远程数据源中,我得到了全部大写的文本字节(通常不超过 100 个字符)。这主要是自然语言,但有散布的首字母缩写词和标点符号(如 + 和 -)。我想做的是将此文本转换为可读的形式,也就是说,除了首字母缩写词和正确大写的名词和名称外,大部分都小写(这适用于德语,其中大写的单词多于,例如英文)。

我更喜欢 Cocoa (OS X) 的解决方案,但欢迎使用任何其他方法。我读过 NSLinguisticTagger(例如in this question),但似乎标记单词高度依赖于已经正确大写的单词。

【问题讨论】:

    标签: cocoa nlp


    【解决方案1】:

    我会分两次做。首先将其转换为全小写(句子开头除外),然后对其运行拼写检查。这应该有望将大多数专有名词和首字母缩写词变成大写。

    这只是如果您想使用现有的 Cocoa 框架。

    【讨论】:

    • 这实际上是我现在所做的(除了 POS 标记)。然而,这有问题(例如,首字母缩略词保持小写),并且由于语言标记器需要适当的大写来检测名词,所以这是一个经典的鸡蛋问题。
    • 我猜大多数首字母缩略词都没有通过拼写检查,或者可能不太有意义(有点像this question)——也许检查类似的东西可以工作?如果不是,您是否希望在特定集合中使用首字母缩略词,还是总是有新的首字母缩略词出现?
    猜你喜欢
    • 2012-06-20
    • 2015-09-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-11-05
    • 1970-01-01
    • 2022-05-24
    相关资源
    最近更新 更多