【发布时间】:2011-01-08 03:44:12
【问题描述】:
很简单,我需要从多个 PDF 中提取文本(实际上很多),以便在将内容粘贴到 SQL 数据库之前对其进行分析。
我发现了一些相当粗略的免费 C# 库,它们可以工作(最好的库使用 iTextSharp),但存在大量格式错误,并且一些字符被打乱,而且很多时候到处都有空格 (' ') -字里行间,每个字母之间,大块的占了好几行,显得有些随意。
是否有任何简单的方法可以做到这一点,而我完全忽略了(很可能!),还是将提取的字节值可靠地转换为字母是一项艰巨的任务?
【问题讨论】: