【发布时间】:2016-03-23 02:41:00
【问题描述】:
我有 pdf 和 word 文件需要用作 Ruta 的输入。我可以将它们转换为文本文件,但如果这样做会丢失所有表格和格式。无论如何我可以在不丢失任何信息的情况下使用它们吗?
谢谢!
【问题讨论】:
我有 pdf 和 word 文件需要用作 Ruta 的输入。我可以将它们转换为文本文件,但如果这样做会丢失所有表格和格式。无论如何我可以在不丢失任何信息的情况下使用它们吗?
谢谢!
【问题讨论】:
您需要一个能够将 pdf (/doc/docx) 转换为 html 的附加程序。主要有两种不同类型的 PDF 转换器:一种是使用绝对位置来生成好看的 html,另一种是只依赖 html 元素和 css。对于处理表,我推荐后者。我个人用的是商业的方案,不过也有很多不错的开源软件,比如pdf2htmlEX
如果你有 html,那么你可以应用 HtmlAnnotator 和 HtmlConverter 来获取带有 html 标签注释的纯文本,如UIMA Ruta documentation中所述
【讨论】: