【发布时间】:2021-01-17 05:55:48
【问题描述】:
我正在尝试阅读印地语 PDF 的内容。我已经使用itext7 库来阅读 PDF 文件。
它适用于英语 PDF 并且也可以获取确切的字符但是当我尝试使用任何印地语(本地)语言 PDF 时,值是不可读的格式。
我获取文本的不可读格式
d d d daaaah h eeh h ee aaaa
这里是阅读 PDF 页面的示例代码。
val pdfReader = PdfReader("pdfPath")
PdfDocument(pdfReader).use { doc ->
pdfContent = PdfTextExtractor.getTextFromPage(doc.getPage(1))
}
pdfReader.close()
是否需要将语言参数传递给 itext7 库才能获得确切的内容?
【问题讨论】:
-
不可读的格式到底是什么意思?如果提取的字符完全错误,甚至可能不是来自印地语,则 pdf 本身可能包含不完整或不正确的文本提取信息。如果只是稍微偏离,可能是 itext 的问题。
-
请分享带有印地语内容的 PDF。
-
@AmedeeVanGasse PDF 链接:hindutemplealbany.org/wp-content/uploads/2016/08/…
-
@mkl,用我得到的响应格式更新了问题
标签: android itext itext7 pdf-reader pdfdocument