【问题标题】:read pdf file with original contents读取原始内容的pdf文件
【发布时间】:2010-05-21 09:35:30
【问题描述】:

我想阅读带有原始内容的 pdf 文件,例如它的字体(可能某些字体很小,而某些字体很大)以及段落和表格(如果是)。

这怎么可能。

请帮忙。

【问题讨论】:

    标签: java pdf text-extraction text-formatting


    【解决方案1】:

    您需要一个库,例如 jPod,它可以将 PDF 文档解析回生成它们的结构。 PDF 规范非常复杂,但如果您只想抓取文本并可能需要一两个字体大小,那应该不难做到。

    【讨论】:

    • 您好,是否可以读取带有原始内容的 doc 文件......例如段落和字体大小、字体颜色和表格???
    • 除非 PDF 是作为结构化内容创建的,否则它不在文件中 - 需要猜测。我写了一篇博客文章,在pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text 上解释了 PDF 中的内容
    猜你喜欢
    • 2011-04-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-18
    相关资源
    最近更新 更多