使用 Tika 从 .tex 文件中提取文本答案

【问题标题】：Extract text from .tex files using Tika使用 Tika 从 .tex 文件中提取文本
【发布时间】：2011-03-15 07:01:14
【问题描述】：

如何使用 Apache Tika 从.tex 文件中提取文本？示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确地将内容类型检测为application/x-tex，但不会从中提取任何内容。

我试过命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

还有下面的代码sn-p：

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

【问题讨论】：

【解决方案1】：

Tika 支持检测 .tex 文件扩展名，但目前还没有解析器，抱歉。

如果你能找到一个好的 Java 库（最好是 Apache 许可的）来解析 .tex 文件，那么我建议你在 Tika JIRA 中打开一个新的增强请求（https://issues.apache.org/jira/ browse/TIKA) 并请求基于该库的 Tex Parser。

【讨论】：