【发布时间】:2018-09-28 14:03:38
【问题描述】:
谁有按时间顺序排列的操作列表
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
我可以用nlp.pipe_names查看主要组件
['tagger', 'parser', 'ner']
以及按字母顺序排列的工厂运营列表,nlp.factories
{'merge_entities': <function spacy.language.Language.<lambda>>,
'merge_noun_chunks': <function spacy.language.Language.<lambda>>,
'ner': <function spacy.language.Language.<lambda>>,
'parser': <function spacy.language.Language.<lambda>>,
'sbd': <function spacy.language.Language.<lambda>>,
'sentencizer': <function spacy.language.Language.<lambda>>,
'similarity': <function spacy.language.Language.<lambda>>,
'tagger': <function spacy.language.Language.<lambda>>,
'tensorizer': <function spacy.language.Language.<lambda>>,
'textcat': <function spacy.language.Language.<lambda>>,
'tokenizer': <function spacy.language.Language.<lambda>>}
但我不知道何时调用 lemmatizer。 词形还原必须在 tokenization 和 POS 标记 之后进行,并且它将在 parser 和 ner 禁用的情况下运行。 spaCy pipeline docs 根本不提。谢谢!
【问题讨论】:
标签: python nlp spacy lemmatization