【发布时间】:2016-08-27 17:24:57
【问题描述】:
Treetagger 可以进行词性标注和文本分块,这意味着提取动词和名词性从句,如下德文示例所示:
$ echo 'Das ist ein Test.' | cmd/tagger-chunker-german
reading parameters ...
tagging ...
finished.
<NC>
Das PDS die
</NC>
<VC>
ist VAFIN sein
</VC>
<NC>
ein ART eine
Test NN Test
</NC>
. $. .
我试图弄清楚如何使用 Python 中的 Treetaggerwrapper 来执行此操作(因为它比直接调用 Treetagger 更快),但我不知道它是如何完成的。文档将分块称为预处理,所以我尝试使用它:
tags = tagger.tag_text(u"Dieser Satz ist ein Satz.",prepronly=True)
但输出只是一个单词列表,没有添加任何信息。我开始认为 Wrapper 所称的 Chunking 与实际标注者所称的 Chunking 不同,但也许我只是遗漏了一些东西?任何帮助将不胜感激。
【问题讨论】:
标签: python nlp chunking treetagger