【发布时间】:2014-12-19 03:24:07
【问题描述】:
我正在构建一个程序来做一些文本分析。
我猜将缩写词解压缩为其原始词会提高我分析的准确性。 但我不知道实施它。我用谷歌搜索了一下,但找不到任何讨论这个的文章或论文。 (或者也许我只是不知道要搜索的正确关键字)
基本上我需要的是:给定一个单词 W,从字典中找到一个最有可能成为 W 的未缩写版本的单词(未缩写单词列表)。 (可选)我希望算法与印度尼西亚语兼容。
我的问题有点类似于这个 SO 问题:A string searching algorithm to quickly match an abbreviation in a large list of unabbreviated strings?,但这个问题没有得到回答,尽管在 2010 年被问到。
那么,有什么想法吗?提前致谢!
【问题讨论】:
标签: algorithm nlp text-analysis