【发布时间】:2010-05-21 09:35:30
【问题描述】:
我想阅读带有原始内容的 pdf 文件,例如它的字体(可能某些字体很小,而某些字体很大)以及段落和表格(如果是)。
这怎么可能。
请帮忙。
【问题讨论】:
标签: java pdf text-extraction text-formatting
我想阅读带有原始内容的 pdf 文件,例如它的字体(可能某些字体很小,而某些字体很大)以及段落和表格(如果是)。
这怎么可能。
请帮忙。
【问题讨论】:
标签: java pdf text-extraction text-formatting
您需要一个库,例如 jPod,它可以将 PDF 文档解析回生成它们的结构。 PDF 规范非常复杂,但如果您只想抓取文本并可能需要一两个字体大小,那应该不难做到。
【讨论】: