【发布时间】:2019-10-01 22:43:55
【问题描述】:
到目前为止,我已经在 python 中使用了 stanfordnlp 库,并且我已经对文本数据框进行了标记化和 POS 标记。我现在想尝试提取名词短语。我尝试了两种不同的方法,但都遇到了问题:
据我所知,stanfordnlp python 库似乎并没有提供开箱即用的 NP 分块,至少我还没有找到一种方法来做到这一点。我尝试使用它们的 POS 标签按顺序制作所有单词的新数据框,然后检查名词是否重复。但是,这对我来说非常粗糙且相当复杂。
我已经能够使用 nltk 处理英文文本,因此我也尝试在 NLTK 中使用 Stanford CoreNLP API。我在这方面的问题是,在使用 Maven 设置 CoreNLP 时我需要一个丹麦模型(我对此非常缺乏经验)。对于本文的问题1,我一直使用丹麦模型found here。这似乎不是我被要求找到的那种模型 - 再说一次,我现在不知道我在做什么,如果我在这里误解了一些东西,我深表歉意。
然后我的问题是(1)实际上是否有可能在 python 中对 stanfordnlp 中的 NP 进行分块,(2)我是否可以以某种方式将 POS-tagged+tokenized+lemmatized 单词从 stanfordnlp 解析为 NLTK 并执行在那里分块,或者 (3) 是否可以在丹麦语中设置 CoreNLP,然后使用带有 NLTK 的 CoreNLP api。
谢谢你,并为我在此不够清楚而道歉。
【问题讨论】:
标签: python nlp nltk stanford-nlp