【发布时间】:2016-08-23 17:36:58
【问题描述】:
我是 Apache UIMA 的新手,我正在尝试使用 Apache UIMA 构建 NLP 管道。当用户上传文档(即 pdf、words)时,我想使用 Tika Annotator 提取数据。我可以使用 APache Tika 从 pdf 和其他文档中提取文本,但是如何为此编写注释器以及如何将一个注释器的输出作为输入传递给其他注释器。我浏览了 apache UIMA 站点,但无法从该站点捕获很多内容,因此我可以在我的项目中使用它。
例如将让 Tika Annotator 提取文本,然后使用 Output Tika Annotator 在 TokenAnnotator 中执行标记化,然后使用 TokenAnnotator 输出作为 POS Annotator 的输入
任何帮助将不胜感激
【问题讨论】:
-
嗨 Rana,如果您能提供有关实际用例的更多详细信息,我认为这可能会有所帮助。即使您对文本进行了标记和 POS 标记,它们也没有多大用处。你到底想完成什么?
-
嗨,我正在尝试在 UIMA 中构建管道。实际用例是这样的(1)您上传的一些文档可能是 pdf、word 文档(2)您使用 Apache Tika Annotator 从文档中提取内容(3)使用 Tika Annotator 的输出执行空白标记化( 4) 执行词性标注。
-
我明白了。但是,一旦您对文本进行了标记和 POS 标记,接下来的步骤是什么?因为通常,这两个步骤是 NLP 管道中的初步步骤(除非您正在优化标记化和标记,但听起来并不像它)。
-
Martin,您可以执行主题建模、文本分类、情感分析,还可以使用 apache solr 进行搜索和组织