【发布时间】:2019-06-08 12:06:05
【问题描述】:
我正在尝试分多个步骤运行核心管道,以减少昂贵的解析和注释步骤。
我有一组文档,目前我正在使用管道对它们进行标记和句子分解。这很好用,我可以在一定程度上利用这些信息做我需要做的事情。
根据我对标记化句子的处理,有些需要依赖解析,有些需要 NER,有些可以因为不重要而被丢弃。
我可以看到依赖解析器可以接收一个句子的 CoreMap 并将依赖图返回给我。但是在线阅读我发现拥有 POS 标记会改进解析,这当然是有道理的。 NER 也最有可能需要 POS?
对我来说,需要 NER 的句子不需要进行依赖解析。
虽然 POS 标注器似乎无法接收表示标记化句子的 CoreMap。
有没有一种方法可以运行 POS 标记,然后对来自核心管道的标记化句子进行 NER 或依赖解析,仅运行标记化和 ssplit?
【问题讨论】:
-
从外观上看,我在方法 2 中找到了答案:stackoverflow.com/questions/30714693/…
标签: java nlp stanford-nlp