【发布时间】:2015-07-08 21:06:35
【问题描述】:
我有一个包含文本和图像的 pdf(或任何其他类型的文件,例如 .doc、.ppt 等)。如何使用 Tika 从这些文件中提取图像?
还可以使用 Tess4j 或任何其他库对提取的图像运行 OCR 吗?
这就是我对 Tika 的称呼:
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(writeLimit);
Metadata metadata = new Metadata();
InputStream stream = new FileInputStream("file.pdf");
parser.parse(stream, handler, metadata);
附言我有 tika-app.jar。
【问题讨论】:
-
您如何称呼 Apache Tika?启用递归和/或保存嵌入式资源的方式因您的调用方式而异(java、facade、tika-app、tika-server 等)
-
@Gagravarr:我编辑了我的原始帖子以显示我如何称呼 Tika。
-
我不知道这个。我可以知道它到底是做什么的吗?它做 OCR 吗?
-
@Gagravarr:澄清一下,图像文件是文档的一部分,不是附件,我还能用这段代码提取它们吗?
标签: apache-tika