【问题标题】:Specific Part of Speech labels for Java Stanford NLPJava 斯坦福 NLP 的特定词性标签
【发布时间】:2017-06-26 15:49:41
【问题描述】:

Standford NLP 生成的 PoS 标签集(包括标点符号的 PoS)及其描述是什么?

我知道这个问题已经被问过好几次了,比如:

但这些答案列出了一些典型的 PoS 标签,这些标签不是特定于 Standfor NLP。例如,这些答案都没有列出斯坦福 NKLP 用于 ( 标点符号的 -LRB- PoS 标签。

我在哪里可以找到斯坦福 NLP 源代码中的 PoS 标签列表?

另外,有哪些使用SYM PoS 标签注释的令牌示例?

另外,如何知道标记是否是标点符号? Here 他们定义了isPunctation == true if its PoS is :|,|.|“|”|-LRB-|-RRB-|HYPH|NFP|SYM|PUNC。然而,斯坦福 NLP 并不具备所有这些 PoS。

【问题讨论】:

    标签: stanford-nlp


    【解决方案1】:

    这是 Penn Treebank POS 集,但该标签集的许多描述似乎省略了标点符号。以下是完整的标签列表:

    https://www.eecis.udel.edu/~vijay/cis889/ie/pos-set.pdf

    (但是括号被标记为-LRB-和-RRB-,不知道为什么他们没有在文档中提到这一点。)

    【讨论】:

    • 谢谢。我看到官方文档提到了 Penn Treebank POS 集,它链接到带有列表的页面:nlp.stanford.edu/software/tagger.shtml 不过,这个列表没有显示 -LRB- POS。这就是为什么我更愿意查看它在源代码中的实现位置。它还给出了一些 SYM POS 的例子:comp.leeds.ac.uk/amalgam/tagsets/upenn.html
    • 标签在代码中的任何地方都没有硬编码。 (它们作为序列化模型的一部分存储。)但是我发布的列表应该是完整的,它只是没有提到(写为-LRB-和)写为-RRB-。
    • 谢谢。我看到您对代码和作者非常熟悉(或者您甚至是作者之一?)。也许您可以建议作者在官方页面中添加此信息:nlp.stanford.edu/software/tagger.shtml
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-04-26
    • 2015-04-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多