【问题标题】:UIMA Ruta input type - htmlUIMA Ruta 输入类型 - html
【发布时间】:2016-03-23 02:41:00
【问题描述】:

我有 pdf 和 word 文件需要用作 Ruta 的输入。我可以将它们转换为文本文件,但如果这样做会丢失所有表格和格式。无论如何我可以在不丢失任何信息的情况下使用它们吗?

谢谢!

【问题讨论】:

    标签: uima ruta


    【解决方案1】:

    您需要一个能够将 pdf (/doc/docx) 转换为 html 的附加程序。主要有两种不同类型的 PDF 转换器:一种是使用绝对位置来生成好看的 html,另一种是只依赖 html 元素和 css。对于处理表,我推荐后者。我个人用的是商业的方案,不过也有很多不错的开源软件,比如pdf2htmlEX

    如果你有 html,那么你可以应用 HtmlAnnotator 和 HtmlConverter 来获取带有 html 标签注释的纯文本,如UIMA Ruta documentation中所述

    【讨论】:

    • 谢谢彼得!我可以知道您会为 word 和 pdf 文件推荐哪些商业解决方案吗?我们使用 adobe 专业的,但他们创建的 html 与 Ruta 不兼容。
    • 我在 Word/docx 方面的经验已经过时。 PDF:我评估了 Adob​​e Pro、Nuance Omnipage、Abbyy Finereader 等。每个都有不同的优点。目前,我使用 Datalogics PDF Alchemist。
    • 为什么adobe的html不兼容?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-09-13
    • 2018-08-27
    相关资源
    最近更新 更多