【发布时间】:2011-03-15 07:01:14
【问题描述】:
如何使用 Apache Tika 从.tex 文件中提取文本?示例文件位于http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika 能够正确地将内容类型检测为application/x-tex,但不会从中提取任何内容。
我试过命令
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
还有下面的代码sn-p:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);
【问题讨论】:
标签: tex text-extraction apache-tika