【发布时间】:2016-01-03 21:38:55
【问题描述】:
跑步
./corenlp.sh -annotators quote -outputFormat xml -file input.txt
关于修改后的输入文件
“斯坦福大学”位于加利福尼亚。这是一所伟大的大学,成立于 1891 年。
产生以下输出:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="CoreNLP-to-HTML.xsl" type="text/xsl"?>
<root>
<document>
<sentences/>
</document>
</root>
也许我误解了这个注释器的预期用途,但我希望它能够标记句子中“。”之间的部分。
当我使用“常用”注释器 tokenize、ssplit、pos、lemma、ner 运行脚本时,它们都运行良好,但添加引号不会改变输出。我使用的是 stanford-corenlp-full-2015-12-09 版本。 如何使用引用注释器以及它的作用是什么?
【问题讨论】:
-
更新:JSONOutputter 和 TextOutputter 在提交时启用了 JSON 输出和引号文本。 XML 输出仍未实现,因为当前的 xml 结构是基于句子的,并且引号可以跨越多个句子,这使得很好地实现并非易事。 github.com/stanfordnlp/CoreNLP/commit/…
标签: stanford-nlp