将缩写词提取为其原始词的算法[关闭]答案

【问题标题】：Algorithm to extract abbreviated word to its original word [closed]将缩写词提取为其原始词的算法[关闭]
【发布时间】：2014-12-19 03:24:07
【问题描述】：

我正在构建一个程序来做一些文本分析。

我猜将缩写词解压缩为其原始词会提高我分析的准确性。但我不知道实施它。我用谷歌搜索了一下，但找不到任何讨论这个的文章或论文。（或者也许我只是不知道要搜索的正确关键字）

基本上我需要的是：给定一个单词 W，从字典中找到一个最有可能成为 W 的未缩写版本的单词（未缩写单词列表）。（可选）我希望算法与印度尼西亚语兼容。

我的问题有点类似于这个 SO 问题：A string searching algorithm to quickly match an abbreviation in a large list of unabbreviated strings?，但这个问题没有得到回答，尽管在 2010 年被问到。

那么，有什么想法吗？提前致谢！

【问题讨论】：

【解决方案1】：

在没有任何印尼语知识的情况下，我的第一步是获取常用缩写列表，然后简单地进行字典查找。

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

如何决定选择哪个扩展包本身就是一堆蠕虫。我能很快想到的例子很好，因为它们是不同的词性，所以选择形容词适合句子的形容词；但在一般情况下，您只需要处理一些缩写词确实模棱两可的事实，就像有模棱两可的词一样。毕竟，也许根本不要扩展那些。

对于您在字典中没有的缩写词，我会简单地在一个单词列表中查找它们，可能包含频率和/或词性信息，这样您就可以选择最有可能/最受欢迎的一个（如果有多个）前缀匹配。如果没有这些信息，我会使用粗略的启发式方法总是选择最短的匹配项。

【讨论】：

【解决方案2】：

上下文是所有带有缩写的东西。您的“最高概率”匹配几乎肯定是缩写的上下文与扩展的（预期）上下文匹配的那个。

当然，问题在于有很多可能的上下文，正如某些缩写有几十个可能的扩展所示。尝试定义缩写的上下文也很困难。

您也许可以将其限制为仅说 10-20 个不同的上下文，然后进行相当粗略的匹配。我相当肯定它会有很高的错误率。手动添加/验证上下文也需要大量工作。

【讨论】：