【发布时间】:2020-07-15 18:43:49
【问题描述】:
我正在使用 spaCy,版本 2.3。我有一个不完全正则表达式扫描仪,它可以识别我不想进一步分析的文本范围。我在管道的开头添加了一个管道,就在标记器之后,它使用文档重新标记器将这些跨度变成单个标记。我希望管道的其余部分将这些标记视为专有名词。这样做的正确方法是什么?我在 retokenizer.merge() 的调用中设置了 POS 和 TAG 属性,这些设置在生成的句子解析中仍然存在,但是这些标记的依赖信息让我怀疑我的设置是否产生了预期的影响。有没有办法更新词汇表,以便 POS 标注器知道这些标记的唯一 POS 选项是 PROPN?
提前致谢。
【问题讨论】:
标签: spacy