【发布时间】:2018-04-12 21:59:14
【问题描述】:
我正在尝试编写一个脚本来读取一系列 pdf,使用 tesseract 包对其进行 OCR,然后对我可以提取的文本进行处理。
到目前为止,我处于以下位置:
ReportDensity <- list()
AllReports <- list.files(path = "path",pattern = "*.PDF",full.names=TRUE)
然后我需要调用每个 pdf 的页码,以便我可以读取图像数据
for (i in seq(AllReports))
ReportDensity[[i]] <- pdf_info(AllReports[[i]])
ReportDensity <- lapply(ReportDensity, `[[`, 2)
现在,我要做的是列出单独图像文件的 pdf 的每一页,以便我可以对其进行 OCR。
for (i in seq(AllReports))
for (j in 1:ReportDensity[[i]])
(assign(paste0("Report_",i,"_Page_",j),image_read_pdf(AllReports[[i]],pages = ReportDensity[j])))
我收到的错误信息是:
“poppler_render_page 中的错误(加载文件(pdf),页面,dpi,opw,upw,抗锯齿,: 无效页面。”
我认为这是因为我错误地编写了循环。我已经通过手动输入图像/页码来测试代码,并且可以正确加载。
我希望最终结果是一系列“Report_ReportNumber_PageNumber”形式的图像文件,然后我可以处理这些文件。
【问题讨论】:
标签: r pdf imagemagick ocr