【发布时间】:2011-02-24 22:50:19
【问题描述】:
我正在写一篇硕士论文 - NLP 系统。我有一个组件 - 提取器。
它正在从 PDF 文件中提取纯文本。有一些 PDF 文件无法正确提取。提取器(PDFBox 库)返回如下字符串:
"┤xDn║if|d├gDF"Ti&cD╬lh d FÁhis~n ╗xd f«"d┤ffih »h"
或
“10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17”
我正在检查导致此提取问题的每个文件,并且所有这些文件的文本也无法从 PDF 阅读器(Adobe Reader 和 FoxIt 阅读器)复制粘贴。在此阅读器中查看它们已启用,但在选择其内容并复制到剪贴板后,我得到相同的错误文本(如上所述 - 语义不正确的字符字符串或数字和字母字符串)。
谁能帮帮我???
【问题讨论】:
-
有时,如果不使用 OCR(光学字符识别),您根本无法将文本输出。这听起来像是其中之一。