【发布时间】:2019-04-21 02:19:28
【问题描述】:
我最近开始使用 UIMA RUTA。我有几个问题。 1:我们如何在RUTA中使用现有的标注器(DBpedia标注器,MunPx标注器)? 2:我们如何使用 Annotation Writer 格式化输出? 3: RUTA 是否将 .txt 之外的其他文件格式作为输入?
【问题讨论】:
标签: nlp uima ruta spotlight-dbpedia
我最近开始使用 UIMA RUTA。我有几个问题。 1:我们如何在RUTA中使用现有的标注器(DBpedia标注器,MunPx标注器)? 2:我们如何使用 Annotation Writer 格式化输出? 3: RUTA 是否将 .txt 之外的其他文件格式作为输入?
【问题讨论】:
标签: nlp uima ruta spotlight-dbpedia
1:如何使用RUTA中已有的标注器(DBpedia标注器、MunPx标注器)?
UIMA Ruta 不依赖于特定的类型系统。如果您有一个带有不同标记器的管道,并且这些标记器创建了某种类型系统的注释,那么您可以在 Ruta 脚本中使用这些注释编写规则,并在该管道的分析引擎中使用这些规则。根据配置,您可能需要在 Ruta 脚本中导入类型系统。
2:我们如何使用 Annotation Writer 格式化输出?
如果你在 ruta-core 中引用 AnnoationWriter,那么答案是:你不能格式化输出。您需要使用不同的分析引擎。
3:RUTA 是否将 .txt 以外的其他文件格式作为输入?
一般来说,Ruta 处理给定的 CAS 对象,它由任何阅读器填充任何文件格式。在 UIMA Ruta Workbench 中,启动配置支持“.txt”、“.csv”、“html”、“xhtml”作为纯文本文件格式和“.xmi”、“.xcas”、“.bcas”、“。 scas" 使用 CasIOUtils 的 SerialFormat 检测。
免责声明:我是 UIMA Ruta 的开发人员
【讨论】: