【问题标题】:Extract text from .tex files using Tika使用 Tika 从 .tex 文件中提取文本
【发布时间】:2011-03-15 07:01:14
【问题描述】:

如何使用 Apache Tika 从.tex 文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确地将内容类型检测为application/x-tex,但不会从中提取任何内容。

我试过命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

还有下面的代码sn-p:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

【问题讨论】:

    标签: tex text-extraction apache-tika


    【解决方案1】:

    Tika 支持检测 .tex 文件扩展名,但目前还没有解析器,抱歉。

    如果你能找到一个好的 Java 库(最好是 Apache 许可的)来解析 .tex 文件,那么我建议你在 Tika JIRA 中打开一个新的增强请求(https://issues.apache.org/jira/ browse/TIKA) 并请求基于该库的 Tex Parser。

    【讨论】:

    • 谢谢,如果我找到这样的图书馆,我会开票。
    猜你喜欢
    • 2011-10-03
    • 1970-01-01
    • 1970-01-01
    • 2018-01-06
    • 1970-01-01
    • 2015-10-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多