【发布时间】:2014-12-21 16:08:45
【问题描述】:
我正在使用 pdfbox 从 pdf 文件中提取文本。我阅读pdf文档如下
PDFParser parser = null;
String text = "";
PDFTextStripper stripper = null;
PDDocument pdoc = null;
COSDocument cdoc = null;
File file = new File("path");
try {
parser = new PDFParser(new FileInputStream(file));
} catch (IOException e) {
e.printStackTrace();
}
try {
parser.parse();
cdoc = parser.getDocument();
stripper = new PDFTextStripper();
pdoc = new PDDocument(cdoc);
stripper.setStartPage(1);
stripper.setEndPage(2);
text = stripper.getText(pdoc);
System.out.println(text);
} catch (IOException e) {
e.printStackTrace();
}
但我想做的是逐行读取文档并从每一行中提取文本属性,例如粗体、斜体。 如何使用 pdfbox 库实现这一目标
【问题讨论】:
标签: pdfbox