【问题标题】:Algorithm to extract abbreviated word to its original word [closed]将缩写词提取为其原始词的算法[关闭]
【发布时间】:2014-12-19 03:24:07
【问题描述】:

我正在构建一个程序来做一些文本分析。

我猜将缩写词解压缩为其原始词会提高我分析的准确性。 但我不知道实施它。我用谷歌搜索了一下,但找不到任何讨论这个的文章或论文。 (或者也许我只是不知道要搜索的正确关键字)

基本上我需要的是:给定一个单词 W,从字典中找到一个最有可能成为 W 的未缩写版本的单词(未缩写单词列表)。 (可选)我希望算法与印度尼西亚语兼容。

我的问题有点类似于这个 SO 问题:A string searching algorithm to quickly match an abbreviation in a large list of unabbreviated strings?,但这个问题没有得到回答,尽管在 2010 年被问到。

那么,有什么想法吗?提前致谢!

【问题讨论】:

    标签: algorithm nlp text-analysis


    【解决方案1】:

    在没有任何印尼语知识的情况下,我的第一步是获取常用缩写列表,然后简单地进行字典查找。

    viz. => namely
    i.e. => that is
    fr.  => from
    Fr.  => France, French
    abbr. => abbreviated, abbreviation
    

    如何决定选择哪个扩展包本身就是一堆蠕虫。我能很快想到的例子很好,因为它们是不同的词性,所以选择形容词适合句子的形容词;但在一般情况下,您只需要处理一些缩写词确实模棱两可的事实,就像有模棱两可的词一样。毕竟,也许根本不要扩展那些。

    对于您在字典中没有的缩写词,我会简单地在一个单词列表中查找它们,可能包含频率和/或词性信息,这样您就可以选择最有可能/最受欢迎的一个(如果有多个)前缀匹配。如果没有这些信息,我会使用粗略的启发式方法总是选择最短的匹配项。

    【讨论】:

      【解决方案2】:

      上下文是所有带有缩写的东西。您的“最高概率”匹配几乎肯定是缩写的上下文与扩展的(预期)上下文匹配的那个。

      当然,问题在于有很多可能的上下文,正如某些缩写有几十个可能的扩展所示。尝试定义缩写的上下文也很困难。

      您也许可以将其限制为仅说 10-20 个不同的上下文,然后进行相当粗略的匹配。我相当肯定它会有很高的错误率。手动添加/验证上下文也需要大量工作。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2021-12-21
        • 1970-01-01
        • 2022-01-21
        • 2012-07-08
        • 2021-12-27
        • 2012-09-05
        • 2022-01-21
        • 2010-12-07
        相关资源
        最近更新 更多