斯坦福 NLP POS Tagger 对非常简单的短语有问题？答案

【问题标题】：Stanford NLP POS Tagger has issues with very simple phrases?斯坦福 NLP POS Tagger 对非常简单的短语有问题？
【发布时间】：2016-03-20 02:48:42
【问题描述】：

我在使用 Stanford NLP Parser/POS Tagger 的应用程序中发现了不一致行为的示例，并且我能够在线复制它http://nlp.stanford.edu:8080/corenlp/process。我使用的是 3.60 版：

这是我目前发现的 3 个问题：

点有或没有不一致问题：

作为名词发现的动词
标记为形容词的动词

我知道语言相当模糊，但我想知道我是否可以信任这个库，即使是那些简单的短语。我也想知道我是否做错了什么。我单独尝试了每个示例的有问题的案例，或者换句话说，在单独的句子中，问题仍然存在。

这是预期的行为：

感谢任何帮助！谢谢

【问题讨论】：

句号前加一个空格？
@alvas 我刚刚尝试过，它不会改变与句号相关的任何问题的行为

标签： nlp stanford-nlp linguistics part-of-speech

【解决方案1】：

你没有做错任何事。当然，欢迎您自己决定对任何工具的信任程度，但我怀疑您会在任何经过经验/统计训练的解析器中看到类似的问题。至于你的问题：

期间在模型构建中被视为任何其他标记，因此，是的，它们可以影响选择的解析。
在英语中确实存在很多歧义（就像在所有其他人类语言中一样），以及是否将以 ing 结尾的形式解释为动词、名词（动词名词或动名词）的问题)，或者形容词是常见的。解析器并不总是正确的。
就其做出的特定错误选择而言，它们通常反映了解析器训练数据与您正在尝试的句子之间的用法/域不匹配。训练数据主要是新闻文章——上个千年的新闻文章——尽管我们确实混合了一些其他数据并偶尔添加。所以：
- flagging 用作动词，在现代互联网开发人员使用中很常见，但在训练数据中根本不会出现，因此选择 JJ 来表示 flagging，因为这是对训练数据中唯一案例的分析。
- 在新闻文章中，drinking 只是一个更常见的名词，讨论未成年人饮酒、喝咖啡、酒后驾车 等

【讨论】：

感谢 Manning 教授的详细解释 :) - 我假设较短的短语结果更容易预测，但似乎训练数据与我自己的数据不匹配。我将研究如何自己训练解析器。在我阅读的过程中，这是一个需要付出很多努力的过程吗？

【解决方案2】：

来自 POS 标记器的不同结果让我发疯，所以为了进行健全性检查，我终于写了一些东西来快速将结果与通常使用的三个（Stanford NLP、NLTK 3.2.1 和 Senna）进行比较它还给它们计时，因为一个标记器经常会在某些文本上窒息。 https://github.com/StealthyK/TaggerTimer

【讨论】：