【发布时间】:2016-11-30 13:51:34
【问题描述】:
我在使用 Apache Tika 解析大型 PDF 文件时遇到了一些问题。 文件大小接近 5 MB。
代码如下:
package com.ibm.lnk.processor;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import com.ibm.lnk.utility.LNKProcessorUtility;
public class TestClient {
public static void main(String[] args) throws IOException {
InputStream inputStream=null;
try {
inputStream=new FileInputStream(new File("C:\\CognitiveAssignment\\ProjectSpecificMaterials\\C3Portal\\TestData\\T1\\Anupam Sarkar_IBM_CV.pdf"));
String content=LNKProcessorUtility.getTextContent(inputStream);
System.out.println(content);
} catch (Exception e) {
System.out.println(e);
}finally {
inputStream.close();
}
}
}
我得到的例外是:
org.apache.tika.exception.TikaException:无法提取所有 PDF 内容
谁能帮我解决这个问题?
【问题讨论】:
-
完整的异常是什么,包括堆栈跟踪?
-
您使用的是哪个 TIKA 版本?
-
可能是这样的:issues.apache.org/jira/browse/TIKA-2098。顺便说一句,您应该编辑您的问题以包含堆栈跟踪。这将显示它是否是同一个问题。
标签: java apache apache-tika