tl;博士回答
只需在以下位置展开列表:
更长的答案
自从我第一次提出这个问题以来,文档有了很大的改进,而 spaCy 现在记录得更好了。
词性标签
pos 和 tag 属性列表在https://spacy.io/api/annotation#pos-tagging,并描述了这些值列表的来源。在本次(2020 年 1 月)编辑时,文档说 pos 属性:
spaCy 将所有特定于语言的词性标签映射到Universal Dependencies scheme 之后的一组固定的小词类型标签。通用标签不针对任何形态特征进行编码,仅涵盖单词类型。它们以 Token.pos 和 Token.pos_ 属性的形式提供。
至于tag 属性,文档说:
英语词性标注器使用 Penn Treebank 标记集的OntoNotes 5 版本。我们还将标签映射到更简单的 Universal Dependencies v2 POS 标签集。
和
德语词性标注器使用TIGER Treebank 注释方案。我们还将标签映射到更简单的 Universal Dependencies v2 POS 标签集。
因此,您可以选择使用跨语言一致的粗粒度标签集 (.pos) 或特定于特定树库的细粒度标签集 (.tag),因此特定的语言。
.pos_标签列表
文档列出了以下用于 pos 和 pos_ 属性的粗粒度标签:
-
ADJ:形容词,例如大、旧、绿色、难以理解、首先
-
ADP:附加,例如在,到,期间
-
ADV:副词,例如非常,明天,下来,哪里,那里
-
AUX:辅助,例如是,已经(完成),将(做),应该(做)
-
CONJ:连词,例如和,或者,但是
-
CCONJ:协调连词,例如和,或者,但是
-
DET:确定者,例如一个,一个,那个
-
INTJ:感叹词,例如psst,哎哟,好极了,你好
-
NOUN: 名词,例如女孩, 猫, 树, 空气, 美女
-
NUM:数字,例如2017 年 1 月 1 日、77 日、IV、MMXIV
-
PART:粒子,例如的,不是,
-
PRON: 代词,例如我、你、他、她、我自己、他们自己、某人
-
PROPN:专有名词,例如玛丽、约翰、伦敦、北约、HBO
-
PUNCT:标点符号,例如., (, ), ?
-
SCONJ:从属连词,例如如果,而,那
-
SYM:符号,例如$、%、§、©、+、-、×、÷、=、:)、?
-
VERB:动词,例如跑,跑,跑,吃,吃,吃
-
X:其他,例如sfpksdpsxmsa
-
SPACE:空格,例如
请注意,当他们说这个列表遵循通用依赖方案时,文档有点撒谎;上面列出的两个标签不属于该方案。
其中一个是 CONJ,它曾经存在于通用 POS 标签方案中,但自从 spaCy 首次编写以来,它已被拆分为 CCONJ 和 SCONJ。根据文档中 tag->pos 的映射,看起来 spaCy 的当前模型实际上并没有使用CONJ,但由于某种原因它仍然存在于 spaCy 的代码和文档中 - 可能与旧模型向后兼容。
第二个是SPACE,它不是通用 POS 标签方案的一部分(据我所知,从来没有),除了单个普通 ASCII 空格(它不' t 获得自己的令牌):
>>> document = en_nlp("This\nsentence\thas some weird spaces in\n\n\n\n\t\t it.")
>>> for token in document:
... print('%r (%s)' % (str(token), token.pos_))
...
'This' (DET)
'\n' (SPACE)
'sentence' (NOUN)
'\t' (SPACE)
'has' (VERB)
' ' (SPACE)
'some' (DET)
'weird' (ADJ)
'spaces' (NOUN)
'in' (ADP)
'\n\n\n\n\t\t ' (SPACE)
'it' (PRON)
'.' (PUNCT)
我将从这个答案中省略 .tag_ 标签的完整列表(更细粒度的标签),因为它们数量众多,现在有据可查,英语和德语不同,并且可能更可能在发布。相反,请查看文档中的列表(例如,英语为 https://spacy.io/api/annotation#pos-en),其中列出了每个可能的标签、它映射到的 .pos_ 值以及它的含义描述。
依赖标记
现在有 三种 spaCy 用于依赖标记的不同方案:one for English、one for German 和 one for everything else。再一次,值列表是巨大的,我不会在这里完整地复制它。每个依赖项旁边都有一个简短的定义,但不幸的是,它们中的许多——比如“同位修饰符”或“从句补语”——对于像我这样的日常程序员来说是相当陌生的艺术术语。如果您不是语言学家,则只需研究这些艺术术语的含义即可理解它们。
不过,我至少可以为使用英文文本的人提供该研究的起点。如果您想在真实句子中查看 CLEAR 依赖项(由英语模型使用)的一些示例,请查看 Jinho D. Choi 的 2012 年工作:他的Optimization of Natural Language Processing Components for Robustness and Scalability 或他的@ 987654334@(这似乎只是前一篇论文的一个小节)。两者都列出了 2012 年存在的所有 CLEAR 依赖标签以及定义和例句。 (不幸的是,自 2012 年以来,CLEAR 依赖标签集发生了一些变化,因此 Choi 的作品中没有列出或举例说明一些现代标签 - 但尽管有些过时,但它仍然是一个有用的资源。)