【问题标题】:How to use Apache Tika to extract text from a .wps file?如何使用 Apache Tika 从 .wps 文件中提取文本?
【发布时间】:2015-09-29 13:24:35
【问题描述】:

我正在使用 Tika 从几种类型的文档中提取文本。 java -jar tika-app-1.10.jar -T [输入文件] 我意识到 Tika-1.10 可以检测 .wps 文件(java -jar tika-app-1.10.jar -m [.wps] 正在返回元数据)但它无法从 .wps 文件中提取文本(java - jar tika-app-1.10.jar -T [.wps] 文件不返回任何内容)。有没有其他方法可以从Java中的wps文件中提取文本? 任何帮助是极大的赞赏 谢谢

【问题讨论】:

  • 请编辑您的帖子并详细说明您到目前为止所尝试的内容(如果有的话)。

标签: java apache-tika


【解决方案1】:

从 Tika 1.13 开始,我们没有 wps 文件的解析器。我们确实支持旧的 Works 7.0 电子表格,但不支持 wps。如果您希望我们增加支持,请在我们的JIRA 上打开一个问题。 (坦率地说,我不知道需要做多少工作)。

【讨论】:

    【解决方案2】:

    尝试添加这个参数:(对于 Tika 1.2)

    --text-main     Output plain text content (main content only)
    

    对于 Tika 1.1:

    --text          Output plain text content
    

    请看这里:https://tika.apache.org/1.2/gettingstarted.html

    考虑使用 1.8 或 1.9 版本的 apache tika。

    【讨论】:

    • 不幸的是,这些都不起作用。我正在使用 1.10 并且之前都尝试过,但没有运气
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-01-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-06
    相关资源
    最近更新 更多