【发布时间】:2011-03-08 03:41:16
【问题描述】:
我想阅读现有的 pdf 并提取文本和图形信息。在图形中,目前我只需要绘制的线条。阅读 PDF 文本的供应商组件很多,但是否也有可以提供图形信息的供应商组件?虽然首选免费/开源,但我也可以接受商业。
要求是:
对于 PDF 中的每一页:
读取文本块
了解文本块(包含块的矩形)的画布坐标。注意,对于字体较大的文本,矩形大小会发生变化。
行 - 需要为 pdf 页面中的每一行收集 (x1,y1,x2,y2)
谢谢, - 探索者
【问题讨论】: