【问题标题】:StanfordNLP POS giving mixed resultsStanfordNLP POS 给出的结果好坏参半
【发布时间】:2017-01-03 16:37:28
【问题描述】:

我在测试斯坦福 NLP POS Tagger,得到的结果好坏参半。

SOP(StanfordNLP.getInstance().getPOSMap("WHEAT flour(whole)".toLowerCase()));
SOP(StanfordNLP.getInstance().getPOSMap("Whole wheat flour".toLowerCase()));

给我以下输出

{NN=[wheat, flour, whole]}
{JJ=[whole], NN=[wheat, flour]}

我该如何处理此类问题?它实际上重新排列了相同的单词。

编辑

也许,我应该解释一下这个问题。

我想比较两个句子。我的方法是对两个字符串执行 POS,然后分别比较两个字符串中的名词/形容词/动词并进行评分。

但是由于基于单词顺序的模糊标记(也由@Elliott 引用),我的排名在某些情况下会失败。有人可以提出解决方法吗?

是否有一个分类统计数据可以给出一个名词分类为形容词或动词等的概率,我可以在我的评分算法中使用它来提供权重?

谢谢 查哈特

【问题讨论】:

    标签: java stanford-nlp part-of-speech


    【解决方案1】:

    POS 标注器总是给出不同的结果;词性标注是上下文相关的,因为一个词在不同的上下文中可以是名词、形容词或动词。词性标注的AI component根据词在句子中的顺序决定如何标注。

    【讨论】:

    • 感谢@Elliott,也许我之前的问题并不清楚。
    【解决方案2】:

    Stanford POS Tagger 非常好。但是,如果您想轻松查看与标准 NLTK 和其他称为 Senna 的质量标记器的并排比较,您可以尝试以下操作: https://github.com/StealthyK/TaggerTimer

    【讨论】:

    • 请提供更多详细信息:关于 Stackoverflow 的链接应用作参考,您的问题应自行回答。
    • 要粘贴的代码太多。该链接是让 OP 将不同的 POS 标记器与 MP 线程进行比较的代码,以比较任何文本输入范围的结果。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-31
    • 1970-01-01
    • 2020-05-26
    • 1970-01-01
    • 1970-01-01
    • 2018-07-11
    相关资源
    最近更新 更多