【发布时间】:2017-01-03 16:37:28
【问题描述】:
我在测试斯坦福 NLP POS Tagger,得到的结果好坏参半。
SOP(StanfordNLP.getInstance().getPOSMap("WHEAT flour(whole)".toLowerCase()));
SOP(StanfordNLP.getInstance().getPOSMap("Whole wheat flour".toLowerCase()));
给我以下输出
{NN=[wheat, flour, whole]}
{JJ=[whole], NN=[wheat, flour]}
我该如何处理此类问题?它实际上重新排列了相同的单词。
编辑
也许,我应该解释一下这个问题。
我想比较两个句子。我的方法是对两个字符串执行 POS,然后分别比较两个字符串中的名词/形容词/动词并进行评分。
但是由于基于单词顺序的模糊标记(也由@Elliott 引用),我的排名在某些情况下会失败。有人可以提出解决方法吗?
是否有一个分类统计数据可以给出一个名词分类为形容词或动词等的概率,我可以在我的评分算法中使用它来提供权重?
谢谢 查哈特
【问题讨论】:
标签: java stanford-nlp part-of-speech