【发布时间】:2021-08-08 10:13:14
【问题描述】:
我正在尝试检测 .pdf 文件文本。
它们首先被转换为图像,然后被提供给 Tesseract。
检测很好,但它们造成了太多的换行符。
例如,如果文件右侧有点变形,则句子:
“我喜欢 Tesseract 来阅读文本”
成为:
“像我一样为 Tesseract 阅读文本”
这已经是经过处理了,因为原始文本是:
“文本
阅读
Tesseract
喜欢
我”
由于源 .pdf 为 300DPI,因此出现该错误,我知道问题出在分辨率上,但我找不到解决方法。
这是我的 Tesseract cmd Tesseract.exe dummy.pdf dumy-ocr.pdf --psm 12 --dpi 300 -l bvr+fra+eng+deu hocr pdf
首先,我想解决行数过多的问题,
然后我会找出如何使图像完全笔直
提前感谢您的帮助
【问题讨论】: